您现在的位置是：首页 > 科技信息 > 正文

MIT与DeepMind联合研究：揭秘视觉语言模型难以解析否定表述的根源

发布时间：2025-01-20 19:09:12编辑：诸葛承山来源：

视觉语言模型（VLMs）在多模态任务中至关重要，但在理解否定表达上仍面临挑战。否定在诸多应用中极为关键，然而现有VLMs在处理否定陈述时表现不佳，尤其在安全监控和医疗保健等领域尤为明显。这一问题的根源在于预训练数据偏差，导致模型将否定与肯定视为同义。

为解决这一问题，MIT、DeepMind及牛津大学的研究人员提出NegBench框架，用于评估和改进VLMs对否定的理解能力。该框架通过大量合成数据集提升模型训练和评估效果，显著提高了模型性能和泛化能力，特别是在处理否定查询和多项选择任务时表现出色。NegBench的提出填补了VLMs在理解否定方面的空白，对构建更强大的人工智能系统具有重要意义。

标签：

猜你喜欢

最新文章