大模型在装傻？揭秘LLM的内部知识与表现差异-联想知识库

大模型在装傻？揭秘LLM的内部知识与表现差异

适用机型：台式 / 笔记本

知识编号：4237842024-10-23

催更新

随着人工智能技术的飞速发展，大型语言模型（LLM）已成为自然语言处理领域的中坚力量。然而，尽管这些模型在处理各种语言任务时表现出色，它们仍然会产生错误，如事实不准确、偏见和常识推理失败等。这些错误通常被称为幻觉。最近，谷歌和苹果的研究人员发现，LLM实际上掌握的知识比它们表现出来的要多。本文将探讨这一发现及其对错误检测和模型改进的潜在影响。

LLM的内部状态和真实性信息

研究表明，LLM的内部状态编码了比以往认为的更多的真实性信息。这些信息集中在特定的token中，通过利用这一属性，可以显著提高检测LLM错误输出的能力。研究人员通过在LLM内部表示上训练分类器，预测与生成输出的真实性相关的各种特征，揭示了LLM内部编码和外部行为之间的差异。

错误检测方法

为了检测LLM的错误，研究人员建立了一个数据集，包含多个问题和对应的正确答案。通过比较LLM生成的回答与正确答案，构建了错误检测数据集。实验涉及四个LLM：Mistral-7b，Mistral-7b-instruct-v0.2，Llama3-8b和Llama3-8b-instruct。研究人员选择了10个跨越不同领域和任务的数据集进行实验。

性能指标

使用ROC曲线下面积（AUC）作为性能指标，以评估错误检测器在多个阈值中区分正确和错误回答的能力。

错误检测方法

Majority：始终预测训练数据中最频繁的标签。
聚合概率/logits：计算这些值的最小值、最大值或平均值。
P(True)：通过提示要求LLM评估其生成的正确性。
Probing：在模型的中间激活上训练一个小分类器，以预测已处理文本的特征。

错误类型研究

研究人员还深入研究了单个任务中的错误，根据模型对重复样本的响应对其错误进行分类。他们发现，可以从贪婪解码的中间表示中预测错误类型。

检测正确答案

研究还探讨了LLM的内部真实性如何在响应生成过程中与其外部行为保持一致。使用经过错误检测训练的探测器，从同一问题的多个响应中选择一个答案，并根据所选答案衡量模型的准确性。实验结果表明，使用探针选择答案可以提高LLM在所有检查任务的准确性。

研究表明，LLM的内部编码包含比其外部行为所显示的更多的知识。这一发现对于改进LLM的错误检测和生成质量具有重要意义。通过深入了解LLM的内部工作机制，我们可以开发出更有效的策略来减少错误，提高模型的可靠性和准确性。随着研究的深入，我们期待LLM在未来能够更好地服务于各种语言处理任务，为用户带来更高质量的体验。

知识有用，就点一下~

收藏 :