事实错误纠正旨在识别和纠正给定语句中的事实错误。现有的大多数方法都依赖于语言模型掩码器,通过掩码语句中的令牌来识别事实错误。然而,这种方法往往无法确保被掩码词块的成分完整性,从而导致更正偏离原始语句。为了解决这个问题,我们提出了一种基于Chunking的方法和用于FEC的词性信息提示,其目的是识别和纠正与声明内容一致的事实错误。具体来说,我们首先描述了一个基于Chunking的掩码模块,该模块可将语句分块为多个跨度,同时保留每个跨度的成分完整性,然后标记每个跨度的词性信息,并将其与跨度边界预测模块预测的证据跨度相结合,形成一个提示,使用该提示给基于T5的校正器为每个基于跨度的掩码语句生成校正,最后使用校正评分来选择最终校正。
背景技术
事实纠错(FEC)的目的是识别和纠正特定声明中的事实错误和不准确之处,从而提高事实声明的准确性和可靠性;随着现实世界中声明的增多,纠正由大型语言模型(LLMs)产生的事实错误或错误信息(例如幻觉)并提供相应纠正证据的需求也在不断增加,为了提高这项任务的效率,有人提出了自动FEC方法,以自动识别和纠正事实错误的证据。
现有的FEC方法大多采用语言模型掩码器来识别声明中可能存在的事实错误,然后用给定的证据或文件进行纠正;然而,这些方法主要侧重于使用标记级掩码策略进行校正,这往往会导致校正结果与原始声明不一致;例如“US AirwaysFlight1549[mask].”是一个被标记级语言模型掩码器掩码的声明,这往往会导致校正与原始声明构成不一致,即使其校正是正确的,例如“USAirways Flight1549crashed.”;因此,为了保持更正与原声明之间的一致性,有必要确保更正不偏离原声明的构成要素。
大多数虚假声明是通过将文本跨度替换为原始声明中的特定成分而生成的,例如,虚假声明“Boeing787Dreamlinerisaboat.”是通过将“boat”替换为“plane”而生成的;现有的基于掩码的FEC方法大多根据证据生成修正,而不考虑掩码跨度的词性信息,如“Boeing787Dreamlinerisatwin-enginejetairliner.”,这样很容易引入不必要的信息或新的错误;因此,为了提高纠错的有效性和准确性,必须考虑掩码跨度的词性信息,即从证据中选择与掩码跨度的词性信息更一致的“plane”,而不是“twin-enginejetairliner”。
实现思路