幻觉(Hallucination),即生成事实诞妄或不一致的信息,已成为视觉 - 言语模子 ( VLMs)可靠性面对的中枢挑战。跟着 VLMs 在自动驾驶、医疗会诊等环节领域的无为应用,幻觉问题因其潜在的紧要后果而备受温存。
然而,面前针对幻觉问题的磋议面对多重制约:图像数据集的有限性、短少针对种种化幻觉触发要素的空洞评估体系,以及在复杂视觉问答任务中进行盛开式评估的固有困难。
为打破这些放胆,来自哥伦比亚大学和 Google DeepMind 的磋议团队建议了一种创新的视觉问答数据集构建决策。
该决策通过整合真的图像与合成生成图像,诈欺基于辅导的图像生成时候,克服了传统数据集(如 MS-COCO 和 Flickr)在图像种种性和非常性方面的局限。这又名为 HaloQuest 的数据集禁受"机器 - 东说念主工"协同的数据生成经由,要点鸠合了三类针对面前 VLM 模子固有短处的挑战性样本,旨在系统性地触发典型幻觉场景:
a. 基于诞妄前提的沟通性问题;
b. 短少充分高下文维持的腌臜性问题;
c. 其他具有高度复杂性的疑难问题;
此外,HaloQuest 创新性地引入了基于大言语模子(LLM)的自动评估系统(AutoEval),竣事了盛开式、动态化的评估机制,并探索了合成图像在 VLM 评估中的立异性应用价值。传统评估环节频繁局限于多项采选题或有限词汇的禁闭式回答,这种评估格局不仅放胆了模子展现复杂推理和狭窄抒发才智,也难以准确评估模子在践诺场景中的本色阐述。
绝顶是在处理生成式幻觉瞻望时,现存环节无法全面斟酌模子生成连贯性、细节丰富度及高下文一致性等方面的才智。HaloQuest 建议的 AutoEval 系统通过维持对模子反应的细粒度、盛开式评估,开荒了一个可随时候发展动态演进的评估框架,为 VLMs 的可靠性评估提供了新的范式。
HaloQuest 先容
图 2 展示了 HaloQuest 数据集的构建经由,该经由通过整合真的图像与合成图像,确保了数据集的丰富性和种种性。真的图像选自 Open Images 数据集的就地样本,而合成图像则来源于 Midjourney 和 Stable Diffusion 在线画廊。为确保图像质地,筛选过程优先洽商高浏览量和正面评价的图像,并迎阿经心预备的主题词列表进行搜索查询。
在东说念主类标注阶段,图像需缓和两个模范:既需具备意旨意思意思意旨意思意思性或专有性,又需易于领会。举例,展示阴事场景、包含很是规物体组合(如图 2 所示的"一稔报纸的狗"),或具有视觉冲击力的图像被视为"敬爱"。同期,这些图像即使叛逆践诺物理端正,也需保持视觉连贯性和了了度,确保东说念主类大要领会其内容。
这一两重模范的预备,旨在均衡生成具有挑战性的场景与确保模子反应的可解释性,从而大要准确归因于模子在推理或领会上的特定颓势。
图像筛选完成后,东说念主类标注者与大言语模子谐和,围绕图像预备问题和谜底,要点温存创造性、狭窄推理才智以及模子潜在偏见的检测。HaloQuest 包含三类旨在诱发幻觉的问题:
a. 诞妄前发问题(False Premise Questions):这些问题包含与图像内容平直矛盾的述说或假定,用于测试模子是否大要优先洽商视觉左证而非误导性言语脚迹。
b. 视觉挑战性问题(Visually Challenging Questions):这些问题条目模子深刻领会图像细节,举例物体计数、空间关系判断或被遮拦区域的推理,用于评估模子的复杂视觉分析才智。
c. 信息不及问题(Insufficient Context Questions):这些问题无法仅凭图像内容得出明确谜底,旨在探伤模子是否会依赖固有偏见或无根据的想到,而非承认信息的局限性。
在问题创建过程中,东说念主类标注者为每张图像预备两个问题过甚谜底。领先,他们需建议一个对于图像中某个视觉元素的问题,但该问题无法仅通过图像内容回答。其次,标注者需建议一个对于图像中精巧细节的问题,该问题需有明确且客不雅的谜底,幸免主不雅偏见的打扰。
为提高恶果,HaloQuest 还诈欺 LLMs(如 IdealGPT 框架,迎阿 GPT-4 和 BLIP2)自动生成图像形容。这些形容被拆分为多个原子述说(举例:"这是一只金毛猎犬的特写","狗的背上披着报纸")。东说念主类标注者评估每个述说的真的性(是 / 否),随后 LLMs 基于这些评估末端生成对应的问答对。
为进一步进步数据质地,HaloQuest 禁受筛选机制:领先,高性能 VQA 模子对启动问题池进行预回答;随后,训诫丰富的东说念主类标注者审查问题及模子回答,确保问题的挑战性和谜底的了了性。过于简便的问题会被修改或丢弃,模棱两头的谜底会被美艳,以确保每个问题王人具有弥散的难度和明确的解答。
通过这一严谨的经由,HaloQuest 构建了一个高质地、高挑战性的数据集,为 VLM 的评估提供了更可靠的基准。下图展示了 HaloQuest 的部分数据样本,并与其他数据集进行了对比,突显了其在种种性和复杂性方面的上风。
自动评估
为了大领域维持解放相貌和盛开式视觉 - 言语模子(VLM)幻觉评估,HaloQuest 开荒了一种基于大言语模子(LLM)的自动评估环节。尽管原则上任何 LLM 只需基础辅导即可履行此类评估,但 HaloQuest 建议了一种更为高效和精确的评估框架。
具体而言,HaloQuest 引入了 Langfun 结构,该环节通过结构化辅导预备,匡助 Gemini 模子准确索取模子反应与参考谜底的中枢内容,并判断二者之间的一致性。图 7 展示了用于竣事自动评估的 Gemini 辅导词过甚结构,而图 8 则提供了 Auto-Eval 评估的具体示例。
如图所示,Gemini 模子需要根据输入的问题、模子回答和参考谜底,填充 PredictionEvaluation 类的干系属性。通过 Langfun 结构,HaloQuest 不仅惩办了 VLM 幻觉评估中的时候挑战,还为昔时更无为的 AI 模子评估提供了创新念念路和实践训诫。
实验与分析
磋议发现,现存视觉 - 言语模子(VLMs)在 HaloQuest 数据集上的阐述不尽如东说念主意,幻觉率较高。这一末端揭示了模子在领会和推理才智上的显耀不及,同期也突显了开荒更慎重的幻觉缓解环节的艰难需求。
环节发现:
a. 模子领域与幻觉率的关系
磋议发现,更大的模子领域并不一定大要裁减幻觉率。出乎料想的是,较小的 BEiT-3 模子在多个任务上阐述优于更大的模子。这一发现标明,单纯依赖模子扩张并弗成有用惩办幻觉问题,数据驱动的幻觉缓解政策可能更具后劲。
b. Auto-Eval 的可靠性
Auto-Eval 与东说念主工评估末端具有较高的干系性。这一末端标明,在东说念主工评估不可行或资本过高的情况下,Auto-Eval 不错动作一种可靠的替代决策,为大领域模子评估提供维持。
c. 微调的有用性
在 HaloQuest 上进行微调显耀裁减了 VLMs 的幻觉率,同期并未影响模子在其他基准测试上的阐述。这解释了 HaloQuest 在进步模子安全性方面的后劲,且不会平缓其举座有用性。
d. 跨数据集的泛化才智
表 6 展示了各模子在 POPE 幻觉基准测试上的阐述。末端自大,经过 HaloQuest 查察的模子在新数据集上的阐述也有所进步,进一步考据了 HaloQuest 大要匡助模子在新环境中幸免幻觉。
合成图像与真的图像的对比
磋议还按照真的图像和合成图像分辨评估了模子的阐述。尽管大宽敞模子在真的图像上的幻觉率更高,但合成图像上的幻觉率仍然显耀。值得珍贵的是,合成图像在数据集构建中具有专有上风
低资本与可扩张性:合成图像提供了一种经济高效的惩办决策,有助于快速扩张数据集领域。
裁减幻觉率:实验末端标明,查察数据加入合成图像有助于裁减模子的幻觉率(见表 5 和表 7)。
时候跳跃的后劲:尽管当今合成图像的难度略低于真的图像,但跟着图像生成时候的跳跃,这一差距有望缩小。
本色应用的重要性:跟着图像生成时候的无为应用,确保模子在合成图像上具备抗幻觉才智将变得愈发重要。
幻觉成因与模子阐述
磋议进一步分析了模子在 HaloQuest 三类问题上的阐述:
诞妄前发问题(False Premise Questions):开源模子在处理此类问题时阐述较差,但 GPT-4 展现出一定上风。
信息不及问题(Insufficient Context Questions):模子宽敞阐述欠安,标明其在处理腌臜信息时容易依赖偏见或无根据的想到。
视觉挑战性问题(Visually Challenging Questions):模子阐述略有进步,但 GPT-4 在此类任务上的阐述不如其他模子。
这些发现为昔时磋议提供了新的标的,包括:
数据集优化:通过校正数据集构建环节,进一步进步模子的抗幻觉才智。
受控图像生成:诈欺更先进的图像生成时候,创建更具挑战性的合成图像。
标注偏差缓解:减少数据标注过程中的偏差,提高数据集的种种性和平允性。
针对性优化:针对不同模子的特定短处,开荒定制化的幻觉缓解政策。
论断
HaloQuest 是一个创新的视觉问答基准数据集,通过整合真的宇宙图像和合成图像,迎阿受控的图像生成时候和针对特定幻觉类型预备的问题,为分析 VLMs 的幻觉触发要素提供了更精确的器用。实验末端标明,面前着手进的模子在 HaloQuest 上的阐述宽敞欠安,表露了其才智与本色应用需求之间的显耀差距。
在 HaloQuest 上进行微调的 VLMs 显耀裁减了幻觉率,同期保持了其在老例推理任务上的性能,这解释了该数据集在进步模子安全性和可靠性方面的后劲。此外,磋议建议了一种基于大言语模子(LLM)的 Auto-Eval 评估机制,大要对 VLMs 的回答进行盛开式、细粒度的评估。与传统环节比拟,Auto-Eval 克服了放胆模子抒发才智或难以评估复杂幻觉的局限性,竣事了评估恶果和准确性的显耀优化。
HaloQuest 不仅为 VLMs 的幻觉问题磋议提供了新的基准,还通过其创新的数据集构建环节和评估机制,为昔时多模态 AI 的发展指明了标的。跟着图像生成时候和评估环节的不休跳跃,HaloQuest 有望在股东更安全、更可靠的视觉 - 言语模子磋议中阐述重要作用。
一键三连「点赞」「转发」「提神心」
接待在挑剔区留住你的宗旨!
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名堂主页相连,以及讨论格局哦
咱们会(尽量)实时回应你
� � 点亮星标 � �
科技前沿进展逐日见开云体育