主流大模型介绍

学习目标: 了解主流 LLM 的特点、差异和选型建议
预计时间: 60 分钟
难度等级: ⭐⭐⭐☆☆

模型格局概览

2025 年的 LLM 市场基本形成三足鼎立的格局:

┌────────────────────────────────────────────────┐
│              全球 LLM 格局(2025)               │
├───────────────┬──────────────┬────────────────┤
│    美国       │     中国      │     欧洲       │
├───────────────┼──────────────┼────────────────┤
│ OpenAI GPT    │ 阿里 Qwen    │ Mistral AI     │
│ Anthropic     │ DeepSeek     │                │
│ Google Gemini │ 百度文心      │                │
│ Meta LLaMA    │ 字节豆包      │                │
│ xAI Grok      │ 智谱 GLM      │                │
│               │ 月之暗面 Kimi │                │
└───────────────┴──────────────┴────────────────┘

几个明显的技术趋势:

混合专家(MoE)架构成为主流
多模态能力成为标配
长上下文窗口持续突破(1M+ tokens)
推理模型成为新赛道

国际主流模型

1. OpenAI - GPT 系列

GPT-4.1 / GPT-4o

特性	说明
发布时间	2024-2025
参数规模	未公开(估计万亿级)
上下文窗口	128K - 1M tokens
核心优势	综合能力最强,多模态支持优秀
典型应用	通用对话、内容创作、编程辅助
成本	较高($10-15/百万 tokens)

能力评估:

MMLU: ~86%(知识问答)
HumanEval: ~85%(代码生成)
多模态: 图像、音频、视频理解

适用场景

需要最强综合性能
多模态任务(图像+文本)
复杂推理和创作

GPT-o1/o3 系列

特性	说明
发布时间	2024-2025
核心创新	思维链推理,复杂问题分步思考
主要优势	数学、编程、科学推理
局限	响应较慢,成本更高

突破:

AIME 数学竞赛: 90%+ 得分
科学推理能力大幅提升

推理模型 vs 通用模型

通用模型(GPT-4o): 快速响应,适合多数任务
推理模型(GPT-o3): 深度思考,适合复杂问题

2. Anthropic - Claude 系列

Claude 4 Sonnet/Opus

特性	说明
发布时间	2025
上下文窗口	200K tokens
核心优势	长文本处理、代码生成、安全性
特色功能	Extended Thinking(扩展思考模式)
安全级别	ASL-3(企业级安全标准)

能力亮点:

SWE-bench Verified: 74.5%(代码修复)
长文档分析能力领先
更少幻觉,更安全输出

适用场景

法律文档分析
学术论文处理
企业级应用(安全要求高)
编程项目开发

3. Google - Gemini 系列

Gemini 2.5 Pro

特性	说明
发布时间	2025
上下文窗口	1M tokens(业界最长)
核心优势	超长上下文、多模态融合
特色功能	内置"思考"功能、实时联网

技术亮点:

原生多模态(图像、视频、音频)
支持 Google 生态系统集成
持续学习机制

适用场景

超长文档处理
多模态内容分析
Google Workspace 集成

4. Meta - LLaMA 系列(开源)

LLaMA 4 Maverick

特性	说明
发布时间	2025
参数规模	400B(MoE 架构)
核心优势	开源、可本地部署
部署成本	单机 H100 可运行
许可协议	开源社区友好

开源生态:

大量微调版本
活跃的社区支持
企业可定制部署

开源 vs 闭源

开源(LLaMA, Qwen):
✓ 可本地部署,数据隐私
✓ 可定制微调
✓ 成本可控
✗ 性能略逊顶级闭源

闭源(GPT-4, Claude):
✓ 性能最强
✗ 仅 API 访问
✗ 数据需上传
✗ 成本较高

5. xAI - Grok 系列

Grok 3

特性	说明
发布时间	2025.02
训练算力	10-20 万块 H100(Memphis 超算集群)
核心优势	实时信息处理、思维链推理
上下文窗口	256K tokens
特色功能	Think/Big Brain 模式

性能亮点:

AIME 2025: 52%(超过 GPT-4o)
集成 X(Twitter)实时信息

中国主流模型

1. 阿里巴巴 - 通义千问(Qwen)系列

Qwen 3 系列

特性	说明
模型版本	Qwen 3-7B, 14B, 32B, 72B, 235B
架构	混合专家(MoE)
语言支持	119 种语言(中文最强)
核心优势	开源、多语言、企业级应用
市场份额	中国企业级份额 17.7%(第一)

能力评估:

中文理解: 行业领先
代码生成: Qwen Coder 表现优异
多模态: Qwen-VL 系列

适用场景

中文应用开发
企业级部署
多语言场景
预算有限(Qwen-7B 可本地运行)

2. 深度求索 - DeepSeek 系列

DeepSeek V3 / R1

特性	说明
发布时间	2024-2025
核心优势	数学、代码、推理能力
开源策略	完全开源,包含权重
市场份额	中国企业级份额 10.3%(第三)

DeepSeek R1(推理模型):

强化学习训练
擅长复杂推理
完全开源,可商用

适用场景

编程开发
数学推理
研究项目
开源社区贡献

3. 字节跳动 - 豆包(Doubao)

特性	说明
发布时间	2023-2025
核心优势	多功能集成、互动性强
特色功能	语音通话、图片生成、视频生成
市场份额	中国企业级份额 14.1%(第二)

应用特色:

集成最多 AI 功能
语音交互体验优秀
适合 C 端用户

4. 月之暗面 - Kimi 系列

Kimi K2

特性	说明
参数规模	总参 1 万亿(MoE)
核心优势	编程、智能体能力
性能	SWE-Bench 65.8%(全球第二)
成本	性价比高

特点:

超长上下文(200 万字)
文件处理能力强
适合智能体开发

5. 智谱 AI - GLM 系列

GLM-4.5

特性	说明
多语言	支持良好
应用	全球编程市场有影响力
部署	提供多种规格模型

特色:

ChatGLM 系列在国内广泛应用
提供轻量级版本
开源社区活跃

模型对比总览

综合能力对比

模型	代码	数学	推理	长文本	多模态	开源	成本
GPT-4.1	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	✗	高
Claude 4	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	✗	高
Gemini 2.5	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	✗	中
LLaMA 4	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	✓	低
Qwen 3	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	✓	低
DeepSeek V3	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	✓	低
Kimi K2	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	✓	中

基准测试成绩(2025)

代码生成(HumanEval):

DeepSeek V3: 78.2%
Qwen Coder: 76.5%
GPT-4.1: 75.6%
Claude 4: 72.1%

数学推理(AIME 2025):

GPT-o3: 94.6%
Grok 3 Think Mode: 52%
DeepSeek R1: 48%

长文本理解:

Gemini 2.5(1M tokens)
Claude 4(200K tokens)
Kimi K2(200 万汉字)

选型决策框架

按场景选择

通用对话 + 内容创作

编程开发

推荐: Claude 4, DeepSeek V3, Qwen Coder

代码生成准确
调试能力强
支持多语言

长文档处理

复杂推理

中文应用

企业部署

多模态任务

按成本选择

预算级别	推荐模型	成本范围
高	GPT-4.1, Claude 4	$10-15/百万 tokens
中	Gemini 2.5, Qwen-72B	$2-5/百万 tokens
低	DeepSeek, Qwen-7B	$0.1-1/百万 tokens
免费	开源模型本地部署	仅硬件成本

按数据隐私选择

敏感数据:

优先选择: 本地部署的开源模型(LLaMA 4, Qwen 3, DeepSeek V3)
谨慎使用: 闭源 API(GPT-4, Claude),数据需上传到云端

非敏感数据:

可选择任何闭源 API
性能优先,成本可控

模型评测方法

权威基准

知识问答:

MMLU(多任务语言理解)
C-Eval(中文评测)

代码生成:

HumanEval(Python)
SWE-bench(真实 GitHub 问题)

数学推理:

AIME(数学竞赛)
GSM8K(小学数学)

长文本:

LongBench
∞Bench

实际测试建议

准备测试集: 收集你领域的真实问题
盲测对比: 不知道模型来源时评估
多维度评分: 准确性、相关性、完整性
成本效益: 考虑性能和成本的平衡

未来趋势

1. 推理模型成为新赛道

通用模型 → 专用推理模型
(GPT-4)    (GPT-o3, DeepSeek R1)

特点: 深度思考、分步推理、更准确但更慢

2. 混合专家(MoE)成为主流

优势:

训练成本降低 70%
性能等效于 7 倍 Dense 模型
推理效率高

3. 端侧模型兴起

趋势: 越来越强的模型可在手机/PC 运行

Qwen-7B(手机可运行)
LLaMA 3.2-1B(端侧优化)

4. 垂直领域模型

专业领域:

医疗: Med-PaLM
法律: Harvey
金融: BloombergGPT

思考题

检验你的理解

根据你的实际需求(学习/工作/项目),选择一个最适合的 LLM,说明理由。
开源模型和闭源模型各有什么优劣?在什么场景下你会优先选择哪一种?
访问至少两个不同的 LLM 平台,用同一个问题测试它们,记录并分析差异。
"推理模型"和"通用模型"有什么区别?什么时候应该使用推理模型?

本节小结

通过本节学习,你应该掌握了:

主流模型特点

GPT 系列: 综合能力强,多模态领先
Claude: 长文本、代码、安全
Gemini: 超长上下文
LLaMA/Qwen/DeepSeek: 开源、高性价比

选型框架

按场景选择
按成本选择
按隐私要求选择

评测方法

权威基准测试
实际应用测试

下一步: 在下一节中,我们将深入探讨 LLM 的核心能力和涌现现象。

← 返回模块目录 | 继续学习:LLM 的核心能力 →

[^1]: "2025年主流大模型盘点", DeepSeek 技术社区, 2025 [^2]: "AI大模型对比分析", BetterYeah AI, 2025 [^3]: "全球主流大模型横向对比", DeepSeek-V3, 2025 [^4]: OpenAI 官方文档, Anthropic 官方文档

主流大模型介绍 ​

模型格局概览 ​

国际主流模型 ​

1. OpenAI - GPT 系列 ​

GPT-4.1 / GPT-4o ​

GPT-o1/o3 系列 ​

2. Anthropic - Claude 系列 ​

Claude 4 Sonnet/Opus ​

3. Google - Gemini 系列 ​

Gemini 2.5 Pro ​

4. Meta - LLaMA 系列(开源) ​

LLaMA 4 Maverick ​

5. xAI - Grok 系列 ​

Grok 3 ​

中国主流模型 ​

1. 阿里巴巴 - 通义千问(Qwen)系列 ​

Qwen 3 系列 ​

2. 深度求索 - DeepSeek 系列 ​

DeepSeek V3 / R1 ​

3. 字节跳动 - 豆包(Doubao) ​

4. 月之暗面 - Kimi 系列 ​

Kimi K2 ​

5. 智谱 AI - GLM 系列 ​

GLM-4.5 ​

模型对比总览 ​

综合能力对比 ​

基准测试成绩(2025) ​

选型决策框架 ​

按场景选择 ​

通用对话 + 内容创作 ​

编程开发 ​

长文档处理 ​

复杂推理 ​

中文应用 ​

企业部署 ​

多模态任务 ​

按成本选择 ​

按数据隐私选择 ​

模型评测方法 ​

权威基准 ​

实际测试建议 ​

未来趋势 ​

1. 推理模型成为新赛道 ​

2. 混合专家(MoE)成为主流 ​

3. 端侧模型兴起 ​

4. 垂直领域模型 ​

思考题 ​

本节小结 ​

主流大模型介绍

模型格局概览

国际主流模型

1. OpenAI - GPT 系列

GPT-4.1 / GPT-4o

GPT-o1/o3 系列

2. Anthropic - Claude 系列

Claude 4 Sonnet/Opus

3. Google - Gemini 系列

Gemini 2.5 Pro

4. Meta - LLaMA 系列(开源)

LLaMA 4 Maverick

5. xAI - Grok 系列

Grok 3

中国主流模型

1. 阿里巴巴 - 通义千问(Qwen)系列

Qwen 3 系列

2. 深度求索 - DeepSeek 系列

DeepSeek V3 / R1

3. 字节跳动 - 豆包(Doubao)

4. 月之暗面 - Kimi 系列

Kimi K2

5. 智谱 AI - GLM 系列

GLM-4.5

模型对比总览

综合能力对比

基准测试成绩(2025)

选型决策框架

按场景选择

通用对话 + 内容创作

编程开发

长文档处理

复杂推理

中文应用

企业部署

多模态任务

按成本选择

按数据隐私选择

模型评测方法

权威基准

实际测试建议

未来趋势

1. 推理模型成为新赛道

2. 混合专家(MoE)成为主流

3. 端侧模型兴起

4. 垂直领域模型

思考题

本节小结