随着人工智能技术的飞速发展,大型语言模型(LLM)已成为自然语言处理领域的中坚力量。然而,尽管这些模型在处理各种语言任务时表现出色,它们仍然会产生错误,如事实不准确、偏见和常识推理失败等。这些错误通常被称为幻觉。最近,谷歌和苹果的研究人员发现,LLM实际上掌握的知识比它们表现出来的要多。本文将探讨这一发现及其对错误检测和模型改进的潜在影响。
LLM的内部状态和真实性信息
研究表明,LLM的内部状态编码了比以往认为的更多的真实性信息。这些信息集中在特定的token中,通过利用这一属性,可以显著提高检测LLM错误输出的能力。研究人员通过在LLM内部表示上训练分类器,预测与生成输出的真实性相关的各种特征,揭示了LLM内部编码和外部行为之间的差异。
错误检测方法
为了检测LLM的错误,研究人员建立了一个数据集,包含多个问题和对应的正确答案。通过比较LLM生成的回答与正确答案,构建了错误检测数据集。实验涉及四个LLM:Mistral-7b,Mistral-7b-instruct-v0.2,Llama3-8b和Llama3-8b-instruct。研究人员选择了10个跨越不同领域和任务的数据集进行实验。
性能指标
使用ROC曲线下面积(AUC)作为性能指标,以评估错误检测器在多个阈值中区分正确和错误回答的能力。
错误检测方法
- Majority:始终预测训练数据中最频繁的标签。
- 聚合概率/logits:计算这些值的最小值、最大值或平均值。
- P(True):通过提示要求LLM评估其生成的正确性。
- Probing:在模型的中间激活上训练一个小分类器,以预测已处理文本的特征。
错误类型研究
研究人员还深入研究了单个任务中的错误,根据模型对重复样本的响应对其错误进行分类。他们发现,可以从贪婪解码的中间表示中预测错误类型。
检测正确答案
研究还探讨了LLM的内部真实性如何在响应生成过程中与其外部行为保持一致。使用经过错误检测训练的探测器,从同一问题的多个响应中选择一个答案,并根据所选答案衡量模型的准确性。实验结果表明,使用探针选择答案可以提高LLM在所有检查任务的准确性。
研究表明,LLM的内部编码包含比其外部行为所显示的更多的知识。这一发现对于改进LLM的错误检测和生成质量具有重要意义。通过深入了解LLM的内部工作机制,我们可以开发出更有效的策略来减少错误,提高模型的可靠性和准确性。随着研究的深入,我们期待LLM在未来能够更好地服务于各种语言处理任务,为用户带来更高质量的体验。