LLM 的挑战与局限

学习目标:理解 LLM 的主要问题和应对策略
预计时间:45 分钟
难度等级:⭐⭐⭐☆☆

最大的挑战:幻觉问题

什么是幻觉?

幻觉是指 LLM 生成的内容看似合理但实际错误或完全虚构的现象。

典型案例

问题:请写一篇关于"量子纠缠在古代中国的应用"的论文

LLM 回答(可能):

量子纠缠理论最早可追溯至《易经》中的阴阳学说... 北宋科学家沈括在《梦溪笔谈》中详细记录了量子纠缠实验... 明代王阳明利用量子纠缠原理实现"心学"的远程传播...

问题:这些内容完全虚构!

量子纠缠是 20 世纪物理学概念
古代中国没有相关理论或实验
人物、事件、文献都是编造的

危险之处:模型表达非常自信,语气笃定,很容易误导读者。

幻觉的分类

1. 事实性幻觉(Factuality Hallucination)

生成内容与客观事实不符。

表现形式:

编造不存在的人物、事件、数据
张冠李戴(错误关联)
时间、地点、数字错误

示例

问:谁发明了电话?

LLM 回答(错误):亚历山大·格拉汉姆·贝尔在 1890 年发明了电话。

事实:贝尔在 1876 年获得电话专利(1890 年错误)
      安东尼奥·梅乌奇可能有更早的发明

2. 忠实性幻觉(Faithfulness Hallucination)

生成内容与输入上下文不一致。

表现形式:

与源材料矛盾
无中生有,添加源文中没有的信息
遗漏或歪曲关键信息

示例

输入文档:
"巴黎是法国首都,人口约 200 万。"

LLM 总结:
"巴黎是德国首都,人口 300 万。"

问题:完全与输入矛盾!

幻觉的成因[^1]

1. 数据层面

训练数据问题:

包含错误、虚假信息
知识覆盖不完整
存在偏见和误导性内容

问题

LLM 无法区分"真实知识"和"网络噪声"

维基百科(相对可靠)
社交媒体(不可靠)
虚构内容(小说、电影)

模型一视同仁地学习!

2. 训练层面

优化目标偏差:

预训练目标:最大化下一个词概率
            ↓
          追求流畅性、连贯性
            ↓
    可能牺牲事实准确性

微调阶段:

标注数据错误
过拟合导致错误知识固化

3. 推理层面

解码策略:

随机采样引入多样性,也增加幻觉风险
早期错误累积(滚雪球效应)

注意力机制:

可能忽略关键约束
过度依赖高频模式

幻觉的影响

应用场景风险:

场景	幻觉风险	后果
创意写作	低	可接受,甚至有益
日常问答	中	可能误导
医疗诊断	高	严重错误,危及生命
法律咨询	高	错误建议,法律责任
金融分析	高	错误决策,经济损失
新闻报道	高	虚假信息,信任危机

关键洞察

根据 Vectara 2025 年评估[^2]:

顶级模型(GPT-4, Gemini 2.0)幻觉率:0.7-1.5%
普通模型幻觉率:5-15%
在严格测试条件下(摘要任务)

这意味着:即使是最好的模型,仍有约 1% 的概率产生幻觉

其他核心挑战

1. 知识截止

问题:LLM 的知识受限于训练数据时间点。

GPT-4 知识截止:2024 年 6 月
Claude 3.5 知识截止:2024 年初
DeepSeek V3 知识截止:2024 年

问:2024 年美国总统大选结果如何?
答:我不知道 / 根据我的知识截止时间...

影响:

无法回答最新事件
知识可能过时
难以应用于时事分析

解决方案:

联网搜索(工具使用)
RAG 检索增强
持续学习更新

2. 上下文长度限制

问题:虽然上下文窗口不断增大,但仍有限制。

典型上下文窗口:
GPT-4:   128K tokens
Claude:  200K tokens
Gemini: 1M tokens

但:
- 一本书 = 50-100K tokens
- 大型代码库 = 数百万 tokens
- 长视频字幕 = 数十万 tokens

挑战:

超长文档无法一次性处理
需要分段、摘要、迭代
可能丢失细节

3. 数学和逻辑推理局限

问题:LLM 在精确计算和严密推理上仍有不足。

数学计算:

问:123456789 × 987654321 = ?

LLM 可能:11,918,541,763,926,269(错误)
正确:121,932,631,112,635,269

逻辑推理:

长推理链容易断裂
可能忽略约束条件
前后矛盾

解决方案:

使用思维链
结合计算器工具
分步骤验证

4. 偏见和公平性

问题:训练数据中的偏见会被模型学习。

常见偏见:

文化偏见(西方中心)
性别偏见(职业关联)
种族偏见
语言偏见(英文优先)

示例

问:医生通常是什么样的人?

可能回答(有偏见):
"医生通常是男性,身穿白大褂..."

问题:
- 性别刻板印象
- 职业偏见
- 忽视多样性

5. 安全与对齐问题

挑战:

有害内容生成(仇恨言论、暴力)
越狱攻击(Jailbreak)
提示词注入
隐私泄露

防御措施:

RLHF 对齐训练
内容过滤系统
红队测试
持续安全更新

缓解策略

1. 提示工程(Prompt Engineering)

精确指令

❌ 模糊:
"总结这篇文章"

✅ 精确:
"请仅基于以下文章内容,总结 3 个关键点。
如果文章中没有提到某个内容,请明确说'未提及'。
不要添加外部信息。"

要求不确定性表达

"如果你不确定答案,请明确说'我不知道',
而不是编造信息。"

要求引用来源

"请为每个关键陈述提供具体的来源或引用。"

2. 检索增强生成(RAG)

核心思想:从可靠知识库检索信息,辅助生成。

用户问题
    ↓
检索系统 → 相关文档
    ↓
文档 + 问题 → LLM
    ↓
基于事实的答案

优势:

减少幻觉
知识实时更新
可追溯来源
领域适应性强

RAG vs 纯 LLM

纯 LLM:
"闭卷考试"
依赖参数记忆
容易出错

RAG:
"开卷考试"
查阅外部资料
更准确

应用场景:

企业知识库问答
法律文档分析
医疗诊断辅助
学术研究

(详见模块五:RAG 与知识库)

3. 工具增强(Tool Use)

结合外部工具弥补 LLM 不足:

LLM 弱项	外部工具	作用
数学计算	计算器	精确计算
实时信息	搜索引擎	最新数据
结构化查询	数据库	精确检索
代码执行	解释器	验证逻辑

4. 验证与反馈

自我验证

步骤 1:生成答案
步骤 2:要求 LLM 检查自己的答案
"请验证你刚才的答案是否正确,
        找出可能的问题。"
步骤 3:修正错误

交叉验证

使用多个模型:
- GPT-4 生成答案
- Claude 验证
- DeepSeek 交叉检查

一致性高 → 可信
一致性低 → 需人工核实

人工审核

高风险应用必须有人工审核:

医疗诊断建议
法律咨询
金融分析
新闻发布

5. 模型选择与调优

选择可靠模型

根据任务选择幻觉率低的模型:

任务类型	推荐模型	理由
事实性问答	Gemini 2.0, GPT-4.1	幻觉率低(~0.7-1.5%)
代码生成	Claude 4, DeepSeek V3	准确率高
长文本分析	Claude 4, Kimi	忠实性好

专门微调

针对特定领域微调模型:

医疗:Med-PaLM
法律:Legal GPT
金融:BloombergGPT

优势:减少幻觉,提升专业性

6. 系统设计原则

人机协作

LLM = 助手,而非专家

✓ LLM 草稿 → 人类审阅
✓ LLM 建议 → 人类决策
✗ LLM 直接输出给用户(高风险场景)

分层防御

第 1 层:提示工程(减少幻觉产生)
第 2 层:RAG(提供可靠信息源)
第 3 层:工具验证(计算、检索)
第 4 层:多模型交叉验证
第 5 层:人工审核(最终把关)

实用指南:如何减少幻觉

✅ 最佳实践

明确要求

"仅基于提供的信息回答,
 不要编造任何内容。"

提供上下文

"背景信息:[...]
 基于以上信息,回答:..."

要求引用

"请为每个陈述提供具体来源。"

分步验证

"请先给出答案,
 然后逐步验证每个关键点。"

使用 RAG

检索相关文档 → 提供给 LLM → 生成答案

❌ 避免的做法

过于开放的提示

❌ "写一篇关于X的文章"
   (容易编造内容)

✅ "基于以下材料写文章:[...]"

信任单一输出

❌ 直接使用 LLM 的第一次回答

✅ 多次生成,比较一致性

高风险场景无审核

❌ 医疗建议直接输出给患者

✅ LLM 生成 → 专家审核 → 患者

忽略不确定性

❌ "这是确定的答案"

✅ "根据我的知识,可能是...
     但我建议您进一步核实。"

幻觉检测方法

自动检测

1. 一致性检查

同一问题,多次生成:

问:中国的首都是哪里?
答 1:北京
答 2:北京
答 3:北京
→ 一致,可信

问:谁发明了量子计算机?
答 1:理查德·费曼
答 2:大卫·多伊奇
答 3:彼得·肖尔
→ 不一致,可能幻觉

2. 事实核查工具

使用搜索引擎验证
权威数据库对比
专用幻觉检测模型(如 HHEM)[^3]

3. 语言模型评估

计算答案的概率分布:
- 高置信度 → 更可能正确
- 低置信度 → 可能幻觉

人工检测

检查清单:

[ ] 关键事实是否准确?
[ ] 数据、数字、日期是否正确?
[ ] 引用来源是否真实存在?
[ ] 逻辑是否自洽?
[ ] 是否有前后矛盾?
[ ] 是否回答了具体问题?

思考题

检验你的理解

什么是"幻觉"?为什么 LLM 会产生幻觉?
在你的应用场景中,幻觉会造成什么风险?如何缓解?
设计一个提示词,让 LLM 回答"2024 年诺贝尔物理学奖得主是谁?",并尽量减少幻觉。
比较 RAG、工具增强、提示工程三种方法,它们分别适合什么场景?

本节小结

通过本节学习,你应该掌握了:

✅ 幻觉问题

定义、分类、成因
影响和风险

✅ 其他挑战

知识截止
上下文限制
数学推理局限
偏见与公平性
安全对齐

✅ 缓解策略

提示工程
RAG 检索增强
工具增强
验证反馈
模型选择
系统设计

✅ 实用指南

最佳实践
幻觉检测
风险管理

模块二总结

恭喜你完成了模块二的学习!🎉

你现在应该能够:

✅ 理解 LLM 基础

定义、特征、发展历程
Transformer 架构原理
主流模型对比

✅ 掌握核心能力

涌现能力、上下文学习
思维链推理
代码生成、多语言
长上下文、指令遵循

✅ 认识挑战与局限

幻觉问题及缓解
其他核心挑战
实用应对策略

这些知识为深入学习 AI Agent 打下了坚实基础!

下一步:在模块三中,我们将学习提示工程,掌握如何更好地与 LLM 沟通。

← 返回模块目录 | 继续学习:模块三 →

[^1]: Ji et al., "Survey of Hallucination in Large Language Models", 2023 [^2]: Vectara HHEM-2.1 Evaluation, 2025 [^3]: "Hallucination Evaluation Model with Large Language Models", 2024

LLM 的挑战与局限 ​

最大的挑战:幻觉问题 ​

什么是幻觉? ​

幻觉的分类 ​

1. 事实性幻觉(Factuality Hallucination) ​

2. 忠实性幻觉(Faithfulness Hallucination) ​

幻觉的成因[^1] ​

1. 数据层面 ​

2. 训练层面 ​

3. 推理层面 ​

幻觉的影响 ​

其他核心挑战 ​

1. 知识截止 ​

2. 上下文长度限制 ​

3. 数学和逻辑推理局限 ​

4. 偏见和公平性 ​

5. 安全与对齐问题 ​

缓解策略 ​

1. 提示工程(Prompt Engineering) ​

精确指令 ​

要求不确定性表达 ​

要求引用来源 ​

2. 检索增强生成(RAG) ​

3. 工具增强(Tool Use) ​

4. 验证与反馈 ​

自我验证 ​

交叉验证 ​

人工审核 ​

5. 模型选择与调优 ​

选择可靠模型 ​

专门微调 ​

6. 系统设计原则 ​

人机协作 ​

分层防御 ​

实用指南:如何减少幻觉 ​

✅ 最佳实践 ​

❌ 避免的做法 ​

幻觉检测方法 ​

自动检测 ​

1. 一致性检查 ​

2. 事实核查工具 ​

3. 语言模型评估 ​

人工检测 ​

思考题 ​

本节小结 ​

模块二总结 ​