Skip to content

LLM 的挑战与局限

学习目标:理解 LLM 的主要问题和应对策略

预计时间:45 分钟

难度等级:⭐⭐⭐☆☆


最大的挑战:幻觉问题

什么是幻觉?

幻觉是指 LLM 生成的内容看似合理但实际错误完全虚构的现象。

典型案例

问题:请写一篇关于"量子纠缠在古代中国的应用"的论文

LLM 回答(可能):

量子纠缠理论最早可追溯至《易经》中的阴阳学说... 北宋科学家沈括在《梦溪笔谈》中详细记录了量子纠缠实验... 明代王阳明利用量子纠缠原理实现"心学"的远程传播...

问题:这些内容完全虚构!

  • 量子纠缠是 20 世纪物理学概念
  • 古代中国没有相关理论或实验
  • 人物、事件、文献都是编造的

危险之处:模型表达非常自信,语气笃定,很容易误导读者。

幻觉的分类

1. 事实性幻觉(Factuality Hallucination)

生成内容与客观事实不符。

表现形式:

  • 编造不存在的人物、事件、数据
  • 张冠李戴(错误关联)
  • 时间、地点、数字错误

示例

问:谁发明了电话?

LLM 回答(错误):亚历山大·格拉汉姆·贝尔在 1890 年发明了电话。

事实:贝尔在 1876 年获得电话专利(1890 年错误)
      安东尼奥·梅乌奇可能有更早的发明

2. 忠实性幻觉(Faithfulness Hallucination)

生成内容与输入上下文不一致。

表现形式:

  • 与源材料矛盾
  • 无中生有,添加源文中没有的信息
  • 遗漏或歪曲关键信息

示例

输入文档:
"巴黎是法国首都,人口约 200 万。"

LLM 总结:
"巴黎是德国首都,人口 300 万。"

问题:完全与输入矛盾!

幻觉的成因[^1]

1. 数据层面

训练数据问题:

  • 包含错误、虚假信息
  • 知识覆盖不完整
  • 存在偏见和误导性内容

问题

LLM 无法区分"真实知识"和"网络噪声"

  • 维基百科(相对可靠)
  • 社交媒体(不可靠)
  • 虚构内容(小说、电影)

模型一视同仁地学习!

2. 训练层面

优化目标偏差:

预训练目标:最大化下一个词概率

          追求流畅性、连贯性

    可能牺牲事实准确性

微调阶段:

  • 标注数据错误
  • 过拟合导致错误知识固化

3. 推理层面

解码策略:

  • 随机采样引入多样性,也增加幻觉风险
  • 早期错误累积(滚雪球效应)

注意力机制:

  • 可能忽略关键约束
  • 过度依赖高频模式

幻觉的影响

应用场景风险:

场景幻觉风险后果
创意写作可接受,甚至有益
日常问答可能误导
医疗诊断严重错误,危及生命
法律咨询错误建议,法律责任
金融分析错误决策,经济损失
新闻报道虚假信息,信任危机

关键洞察

根据 Vectara 2025 年评估[^2]:

  • 顶级模型(GPT-4, Gemini 2.0)幻觉率:0.7-1.5%
  • 普通模型幻觉率:5-15%
  • 在严格测试条件下(摘要任务)

这意味着:即使是最好的模型,仍有约 1% 的概率产生幻觉


其他核心挑战

1. 知识截止

问题:LLM 的知识受限于训练数据时间点。

GPT-4 知识截止:2024 年 6 月
Claude 3.5 知识截止:2024 年初
DeepSeek V3 知识截止:2024 年

问:2024 年美国总统大选结果如何?
答:我不知道 / 根据我的知识截止时间...

影响:

  • 无法回答最新事件
  • 知识可能过时
  • 难以应用于时事分析

解决方案:

  • 联网搜索(工具使用)
  • RAG 检索增强
  • 持续学习更新

2. 上下文长度限制

问题:虽然上下文窗口不断增大,但仍有限制。

典型上下文窗口:
GPT-4:   128K tokens
Claude:  200K tokens
Gemini: 1M tokens

但:
- 一本书 = 50-100K tokens
- 大型代码库 = 数百万 tokens
- 长视频字幕 = 数十万 tokens

挑战:

  • 超长文档无法一次性处理
  • 需要分段、摘要、迭代
  • 可能丢失细节

3. 数学和逻辑推理局限

问题:LLM 在精确计算和严密推理上仍有不足。

数学计算:

问:123456789 × 987654321 = ?

LLM 可能:11,918,541,763,926,269(错误)
正确:121,932,631,112,635,269

逻辑推理:

  • 长推理链容易断裂
  • 可能忽略约束条件
  • 前后矛盾

解决方案:

  • 使用思维链
  • 结合计算器工具
  • 分步骤验证

4. 偏见和公平性

问题:训练数据中的偏见会被模型学习。

常见偏见:

  • 文化偏见(西方中心)
  • 性别偏见(职业关联)
  • 种族偏见
  • 语言偏见(英文优先)

示例

问:医生通常是什么样的人?

可能回答(有偏见):
"医生通常是男性,身穿白大褂..."

问题:
- 性别刻板印象
- 职业偏见
- 忽视多样性

5. 安全与对齐问题

挑战:

  • 有害内容生成(仇恨言论、暴力)
  • 越狱攻击(Jailbreak)
  • 提示词注入
  • 隐私泄露

防御措施:

  • RLHF 对齐训练
  • 内容过滤系统
  • 红队测试
  • 持续安全更新

缓解策略

1. 提示工程(Prompt Engineering)

精确指令

❌ 模糊:
"总结这篇文章"

✅ 精确:
"请仅基于以下文章内容,总结 3 个关键点。
如果文章中没有提到某个内容,请明确说'未提及'。
不要添加外部信息。"

要求不确定性表达

"如果你不确定答案,请明确说'我不知道',
而不是编造信息。"

要求引用来源

"请为每个关键陈述提供具体的来源或引用。"

2. 检索增强生成(RAG)

核心思想:从可靠知识库检索信息,辅助生成。

用户问题

检索系统 → 相关文档

文档 + 问题 → LLM

基于事实的答案

优势:

  • 减少幻觉
  • 知识实时更新
  • 可追溯来源
  • 领域适应性强

RAG vs 纯 LLM

纯 LLM:
"闭卷考试"
依赖参数记忆
容易出错

RAG:
"开卷考试"
查阅外部资料
更准确

应用场景:

  • 企业知识库问答
  • 法律文档分析
  • 医疗诊断辅助
  • 学术研究

(详见模块五:RAG 与知识库)

3. 工具增强(Tool Use)

结合外部工具弥补 LLM 不足:

LLM 弱项外部工具作用
数学计算计算器精确计算
实时信息搜索引擎最新数据
结构化查询数据库精确检索
代码执行解释器验证逻辑

4. 验证与反馈

自我验证

步骤 1:生成答案
步骤 2:要求 LLM 检查自己的答案
"请验证你刚才的答案是否正确,
        找出可能的问题。"
步骤 3:修正错误

交叉验证

使用多个模型:
- GPT-4 生成答案
- Claude 验证
- DeepSeek 交叉检查

一致性高 → 可信
一致性低 → 需人工核实

人工审核

高风险应用必须有人工审核:

  • 医疗诊断建议
  • 法律咨询
  • 金融分析
  • 新闻发布

5. 模型选择与调优

选择可靠模型

根据任务选择幻觉率低的模型:

任务类型推荐模型理由
事实性问答Gemini 2.0, GPT-4.1幻觉率低(~0.7-1.5%)
代码生成Claude 4, DeepSeek V3准确率高
长文本分析Claude 4, Kimi忠实性好

专门微调

针对特定领域微调模型:

  • 医疗:Med-PaLM
  • 法律:Legal GPT
  • 金融:BloombergGPT

优势:减少幻觉,提升专业性

6. 系统设计原则

人机协作

LLM = 助手,而非专家

✓ LLM 草稿 → 人类审阅
✓ LLM 建议 → 人类决策
✗ LLM 直接输出给用户(高风险场景)

分层防御

第 1 层:提示工程(减少幻觉产生)
第 2 层:RAG(提供可靠信息源)
第 3 层:工具验证(计算、检索)
第 4 层:多模型交叉验证
第 5 层:人工审核(最终把关)

实用指南:如何减少幻觉

✅ 最佳实践

  1. 明确要求

    "仅基于提供的信息回答,
     不要编造任何内容。"
  2. 提供上下文

    "背景信息:[...]
     基于以上信息,回答:..."
  3. 要求引用

    "请为每个陈述提供具体来源。"
  4. 分步验证

    "请先给出答案,
     然后逐步验证每个关键点。"
  5. 使用 RAG

    检索相关文档 → 提供给 LLM → 生成答案

❌ 避免的做法

  1. 过于开放的提示

    ❌ "写一篇关于X的文章"
       (容易编造内容)
    
    ✅ "基于以下材料写文章:[...]"
  2. 信任单一输出

    ❌ 直接使用 LLM 的第一次回答
    
    ✅ 多次生成,比较一致性
  3. 高风险场景无审核

    ❌ 医疗建议直接输出给患者
    
    ✅ LLM 生成 → 专家审核 → 患者
  4. 忽略不确定性

    ❌ "这是确定的答案"
    
    ✅ "根据我的知识,可能是...
         但我建议您进一步核实。"

幻觉检测方法

自动检测

1. 一致性检查

同一问题,多次生成:

问:中国的首都是哪里?
答 1:北京
答 2:北京
答 3:北京
→ 一致,可信

问:谁发明了量子计算机?
答 1:理查德·费曼
答 2:大卫·多伊奇
答 3:彼得·肖尔
→ 不一致,可能幻觉

2. 事实核查工具

  • 使用搜索引擎验证
  • 权威数据库对比
  • 专用幻觉检测模型(如 HHEM)[^3]

3. 语言模型评估

计算答案的概率分布:
- 高置信度 → 更可能正确
- 低置信度 → 可能幻觉

人工检测

检查清单:

  • [ ] 关键事实是否准确?
  • [ ] 数据、数字、日期是否正确?
  • [ ] 引用来源是否真实存在?
  • [ ] 逻辑是否自洽?
  • [ ] 是否有前后矛盾?
  • [ ] 是否回答了具体问题?

思考题

检验你的理解

  1. 什么是"幻觉"?为什么 LLM 会产生幻觉?

  2. 在你的应用场景中,幻觉会造成什么风险?如何缓解?

  3. 设计一个提示词,让 LLM 回答"2024 年诺贝尔物理学奖得主是谁?",并尽量减少幻觉。

  4. 比较 RAG、工具增强、提示工程三种方法,它们分别适合什么场景?


本节小结

通过本节学习,你应该掌握了:

幻觉问题

  • 定义、分类、成因
  • 影响和风险

其他挑战

  • 知识截止
  • 上下文限制
  • 数学推理局限
  • 偏见与公平性
  • 安全对齐

缓解策略

  • 提示工程
  • RAG 检索增强
  • 工具增强
  • 验证反馈
  • 模型选择
  • 系统设计

实用指南

  • 最佳实践
  • 幻觉检测
  • 风险管理

模块二总结

恭喜你完成了模块二的学习!🎉

你现在应该能够:

理解 LLM 基础

  • 定义、特征、发展历程
  • Transformer 架构原理
  • 主流模型对比

掌握核心能力

  • 涌现能力、上下文学习
  • 思维链推理
  • 代码生成、多语言
  • 长上下文、指令遵循

认识挑战与局限

  • 幻觉问题及缓解
  • 其他核心挑战
  • 实用应对策略

这些知识为深入学习 AI Agent 打下了坚实基础!


下一步:在模块三中,我们将学习提示工程,掌握如何更好地与 LLM 沟通。


← 返回模块目录 | 继续学习:模块三 →


[^1]: Ji et al., "Survey of Hallucination in Large Language Models", 2023 [^2]: Vectara HHEM-2.1 Evaluation, 2025 [^3]: "Hallucination Evaluation Model with Large Language Models", 2024

最近更新

基于 Apache 2.0 许可发布