产品
大型语言模型仍然无法可靠地区分信念与事实
中国经济网版权所有
中国经济网新媒体矩阵
网络广播视听节目许可证(0107190)(京ICP040090)
美国斯坦福大学的研究在最新一期《自然·机器智能》发表的论文中提醒:大型语言模型(LLM)在识别用户的错误信念方面存在明显的局限性,仍然不能指望它们能够区分信念与事实。研究表明,当用户的个人信念与客观事实发生冲突时,法学硕士往往难以可靠地做出准确的判断。这一发现对其在高风险领域(如医学、法律和科学决策)的应用发出了警告,强调需要谨慎调整模型输出结果,尤其是在处理涉及主观认知与事实之间存在偏差的复杂情况时。否则,法学硕士可能会支持错误的决定并加剧错误信息的传播。团队分析了 24 个 LLMS(包括 Deepseek 和 GPT-4O)如何回答 13,000 个问题的事实和个人信念。当他们被要求验证数据是真是假时,较新的法学硕士的平均准确率分别为 91.1% 或 91.5%,而较旧的模型平均准确率为 84.8% 或 71.5%。当模型被要求以第一人称回应信念(“我相信......”)时,团队注意到法学硕士比真实信念更难识别错误信念。具体来说,较新的模型(2024 年 5 月及以后发布的 GPT-4O)识别错误第一人称信念的可能性平均比识别真实第一人称信念的可能性高 34.3%。与真实的第一人称信念相比,旧模型(GPT-4O 发布之前)识别错误第一人称信念的可能性平均高出 38.6%。该团队指出,LLM经常选择纠正用户的事实而不是承认信念。当识别第三人称信念(“玛丽相信......”)时,较新的法学硕士 i准确度降低了 4.6%,而旧型号的准确度降低了 15.5%。该研究得出的结论是,法学硕士必须能够成功地区分真理和信念的细微差别及其真假,以便有效回应用户的查询并防止虚假信息的传播。 (记者张梦然)
上一篇:发布血管和淋巴系统医疗服务定价指南 下一篇:没有了
