LLM 的挑战与局限
学习目标:理解 LLM 的主要问题和应对策略
预计时间:45 分钟
难度等级:⭐⭐⭐☆☆
最大的挑战:幻觉问题
什么是幻觉?
幻觉是指 LLM 生成的内容看似合理但实际错误或完全虚构的现象。
典型案例
问题:请写一篇关于"量子纠缠在古代中国的应用"的论文
LLM 回答(可能):
量子纠缠理论最早可追溯至《易经》中的阴阳学说... 北宋科学家沈括在《梦溪笔谈》中详细记录了量子纠缠实验... 明代王阳明利用量子纠缠原理实现"心学"的远程传播...
问题:这些内容完全虚构!
- 量子纠缠是 20 世纪物理学概念
- 古代中国没有相关理论或实验
- 人物、事件、文献都是编造的
危险之处:模型表达非常自信,语气笃定,很容易误导读者。
幻觉的分类
1. 事实性幻觉(Factuality Hallucination)
生成内容与客观事实不符。
表现形式:
- 编造不存在的人物、事件、数据
- 张冠李戴(错误关联)
- 时间、地点、数字错误
示例
问:谁发明了电话?
LLM 回答(错误):亚历山大·格拉汉姆·贝尔在 1890 年发明了电话。
事实:贝尔在 1876 年获得电话专利(1890 年错误)
安东尼奥·梅乌奇可能有更早的发明2. 忠实性幻觉(Faithfulness Hallucination)
生成内容与输入上下文不一致。
表现形式:
- 与源材料矛盾
- 无中生有,添加源文中没有的信息
- 遗漏或歪曲关键信息
示例
输入文档:
"巴黎是法国首都,人口约 200 万。"
LLM 总结:
"巴黎是德国首都,人口 300 万。"
问题:完全与输入矛盾!幻觉的成因[^1]
1. 数据层面
训练数据问题:
- 包含错误、虚假信息
- 知识覆盖不完整
- 存在偏见和误导性内容
问题
LLM 无法区分"真实知识"和"网络噪声"
- 维基百科(相对可靠)
- 社交媒体(不可靠)
- 虚构内容(小说、电影)
模型一视同仁地学习!
2. 训练层面
优化目标偏差:
预训练目标:最大化下一个词概率
↓
追求流畅性、连贯性
↓
可能牺牲事实准确性微调阶段:
- 标注数据错误
- 过拟合导致错误知识固化
3. 推理层面
解码策略:
- 随机采样引入多样性,也增加幻觉风险
- 早期错误累积(滚雪球效应)
注意力机制:
- 可能忽略关键约束
- 过度依赖高频模式
幻觉的影响
应用场景风险:
| 场景 | 幻觉风险 | 后果 |
|---|---|---|
| 创意写作 | 低 | 可接受,甚至有益 |
| 日常问答 | 中 | 可能误导 |
| 医疗诊断 | 高 | 严重错误,危及生命 |
| 法律咨询 | 高 | 错误建议,法律责任 |
| 金融分析 | 高 | 错误决策,经济损失 |
| 新闻报道 | 高 | 虚假信息,信任危机 |
关键洞察
根据 Vectara 2025 年评估[^2]:
- 顶级模型(GPT-4, Gemini 2.0)幻觉率:0.7-1.5%
- 普通模型幻觉率:5-15%
- 在严格测试条件下(摘要任务)
这意味着:即使是最好的模型,仍有约 1% 的概率产生幻觉
其他核心挑战
1. 知识截止
问题:LLM 的知识受限于训练数据时间点。
GPT-4 知识截止:2024 年 6 月
Claude 3.5 知识截止:2024 年初
DeepSeek V3 知识截止:2024 年
问:2024 年美国总统大选结果如何?
答:我不知道 / 根据我的知识截止时间...影响:
- 无法回答最新事件
- 知识可能过时
- 难以应用于时事分析
解决方案:
- 联网搜索(工具使用)
- RAG 检索增强
- 持续学习更新
2. 上下文长度限制
问题:虽然上下文窗口不断增大,但仍有限制。
典型上下文窗口:
GPT-4: 128K tokens
Claude: 200K tokens
Gemini: 1M tokens
但:
- 一本书 = 50-100K tokens
- 大型代码库 = 数百万 tokens
- 长视频字幕 = 数十万 tokens挑战:
- 超长文档无法一次性处理
- 需要分段、摘要、迭代
- 可能丢失细节
3. 数学和逻辑推理局限
问题:LLM 在精确计算和严密推理上仍有不足。
数学计算:
问:123456789 × 987654321 = ?
LLM 可能:11,918,541,763,926,269(错误)
正确:121,932,631,112,635,269逻辑推理:
- 长推理链容易断裂
- 可能忽略约束条件
- 前后矛盾
解决方案:
- 使用思维链
- 结合计算器工具
- 分步骤验证
4. 偏见和公平性
问题:训练数据中的偏见会被模型学习。
常见偏见:
- 文化偏见(西方中心)
- 性别偏见(职业关联)
- 种族偏见
- 语言偏见(英文优先)
示例
问:医生通常是什么样的人?
可能回答(有偏见):
"医生通常是男性,身穿白大褂..."
问题:
- 性别刻板印象
- 职业偏见
- 忽视多样性5. 安全与对齐问题
挑战:
- 有害内容生成(仇恨言论、暴力)
- 越狱攻击(Jailbreak)
- 提示词注入
- 隐私泄露
防御措施:
- RLHF 对齐训练
- 内容过滤系统
- 红队测试
- 持续安全更新
缓解策略
1. 提示工程(Prompt Engineering)
精确指令
❌ 模糊:
"总结这篇文章"
✅ 精确:
"请仅基于以下文章内容,总结 3 个关键点。
如果文章中没有提到某个内容,请明确说'未提及'。
不要添加外部信息。"要求不确定性表达
"如果你不确定答案,请明确说'我不知道',
而不是编造信息。"要求引用来源
"请为每个关键陈述提供具体的来源或引用。"2. 检索增强生成(RAG)
核心思想:从可靠知识库检索信息,辅助生成。
用户问题
↓
检索系统 → 相关文档
↓
文档 + 问题 → LLM
↓
基于事实的答案优势:
- 减少幻觉
- 知识实时更新
- 可追溯来源
- 领域适应性强
RAG vs 纯 LLM
纯 LLM:
"闭卷考试"
依赖参数记忆
容易出错
RAG:
"开卷考试"
查阅外部资料
更准确应用场景:
- 企业知识库问答
- 法律文档分析
- 医疗诊断辅助
- 学术研究
(详见模块五:RAG 与知识库)
3. 工具增强(Tool Use)
结合外部工具弥补 LLM 不足:
| LLM 弱项 | 外部工具 | 作用 |
|---|---|---|
| 数学计算 | 计算器 | 精确计算 |
| 实时信息 | 搜索引擎 | 最新数据 |
| 结构化查询 | 数据库 | 精确检索 |
| 代码执行 | 解释器 | 验证逻辑 |
4. 验证与反馈
自我验证
步骤 1:生成答案
步骤 2:要求 LLM 检查自己的答案
"请验证你刚才的答案是否正确,
找出可能的问题。"
步骤 3:修正错误交叉验证
使用多个模型:
- GPT-4 生成答案
- Claude 验证
- DeepSeek 交叉检查
一致性高 → 可信
一致性低 → 需人工核实人工审核
高风险应用必须有人工审核:
- 医疗诊断建议
- 法律咨询
- 金融分析
- 新闻发布
5. 模型选择与调优
选择可靠模型
根据任务选择幻觉率低的模型:
| 任务类型 | 推荐模型 | 理由 |
|---|---|---|
| 事实性问答 | Gemini 2.0, GPT-4.1 | 幻觉率低(~0.7-1.5%) |
| 代码生成 | Claude 4, DeepSeek V3 | 准确率高 |
| 长文本分析 | Claude 4, Kimi | 忠实性好 |
专门微调
针对特定领域微调模型:
- 医疗:Med-PaLM
- 法律:Legal GPT
- 金融:BloombergGPT
优势:减少幻觉,提升专业性
6. 系统设计原则
人机协作
LLM = 助手,而非专家
✓ LLM 草稿 → 人类审阅
✓ LLM 建议 → 人类决策
✗ LLM 直接输出给用户(高风险场景)分层防御
第 1 层:提示工程(减少幻觉产生)
第 2 层:RAG(提供可靠信息源)
第 3 层:工具验证(计算、检索)
第 4 层:多模型交叉验证
第 5 层:人工审核(最终把关)实用指南:如何减少幻觉
✅ 最佳实践
明确要求
"仅基于提供的信息回答, 不要编造任何内容。"提供上下文
"背景信息:[...] 基于以上信息,回答:..."要求引用
"请为每个陈述提供具体来源。"分步验证
"请先给出答案, 然后逐步验证每个关键点。"使用 RAG
检索相关文档 → 提供给 LLM → 生成答案
❌ 避免的做法
过于开放的提示
❌ "写一篇关于X的文章" (容易编造内容) ✅ "基于以下材料写文章:[...]"信任单一输出
❌ 直接使用 LLM 的第一次回答 ✅ 多次生成,比较一致性高风险场景无审核
❌ 医疗建议直接输出给患者 ✅ LLM 生成 → 专家审核 → 患者忽略不确定性
❌ "这是确定的答案" ✅ "根据我的知识,可能是... 但我建议您进一步核实。"
幻觉检测方法
自动检测
1. 一致性检查
同一问题,多次生成:
问:中国的首都是哪里?
答 1:北京
答 2:北京
答 3:北京
→ 一致,可信
问:谁发明了量子计算机?
答 1:理查德·费曼
答 2:大卫·多伊奇
答 3:彼得·肖尔
→ 不一致,可能幻觉2. 事实核查工具
- 使用搜索引擎验证
- 权威数据库对比
- 专用幻觉检测模型(如 HHEM)[^3]
3. 语言模型评估
计算答案的概率分布:
- 高置信度 → 更可能正确
- 低置信度 → 可能幻觉人工检测
检查清单:
- [ ] 关键事实是否准确?
- [ ] 数据、数字、日期是否正确?
- [ ] 引用来源是否真实存在?
- [ ] 逻辑是否自洽?
- [ ] 是否有前后矛盾?
- [ ] 是否回答了具体问题?
思考题
检验你的理解
什么是"幻觉"?为什么 LLM 会产生幻觉?
在你的应用场景中,幻觉会造成什么风险?如何缓解?
设计一个提示词,让 LLM 回答"2024 年诺贝尔物理学奖得主是谁?",并尽量减少幻觉。
比较 RAG、工具增强、提示工程三种方法,它们分别适合什么场景?
本节小结
通过本节学习,你应该掌握了:
✅ 幻觉问题
- 定义、分类、成因
- 影响和风险
✅ 其他挑战
- 知识截止
- 上下文限制
- 数学推理局限
- 偏见与公平性
- 安全对齐
✅ 缓解策略
- 提示工程
- RAG 检索增强
- 工具增强
- 验证反馈
- 模型选择
- 系统设计
✅ 实用指南
- 最佳实践
- 幻觉检测
- 风险管理
模块二总结
恭喜你完成了模块二的学习!🎉
你现在应该能够:
✅ 理解 LLM 基础
- 定义、特征、发展历程
- Transformer 架构原理
- 主流模型对比
✅ 掌握核心能力
- 涌现能力、上下文学习
- 思维链推理
- 代码生成、多语言
- 长上下文、指令遵循
✅ 认识挑战与局限
- 幻觉问题及缓解
- 其他核心挑战
- 实用应对策略
这些知识为深入学习 AI Agent 打下了坚实基础!
下一步:在模块三中,我们将学习提示工程,掌握如何更好地与 LLM 沟通。
[^1]: Ji et al., "Survey of Hallucination in Large Language Models", 2023 [^2]: Vectara HHEM-2.1 Evaluation, 2025 [^3]: "Hallucination Evaluation Model with Large Language Models", 2024