Skip to content

AI 发展简史

本章学习目标:了解 AI 从诞生到大语言模型的关键里程碑,理解 AI 发展的脉络

预计阅读时间:20 分钟


本页内容

虽然 ChatGPT 在 2022 年底引爆了 AI 热潮,但 AI 的历史可以追溯到 70 多年前。了解这段历史,能帮助你理解:

  • AI 发展的起伏周期
  • 当前的 AI 技术处于什么阶段
  • 为什么 Transformer大语言模型 如此重要

AI 的诞生 (1950-1956)

1950:图灵测试 - AI 的思想萌芽

阿兰·图灵 (Alan Turing) 在论文《计算机器与智能》中提出了著名的图灵测试[^1]:

问题: "机器能思考吗?"

测试方法: 如果一台机器与人类对话,人类无法区分对方是机器还是人,那么这台机器就通过了图灵测试。

意义:

  • 首次明确提出"机器智能"的概念
  • 为 AI 研究设定了清晰的目标和评估标准
  • 图灵因此被称为"计算机科学之父"和"AI 之父"

1956:达特茅斯会议 - AI 正式诞生

1956 年夏天,美国达特茅斯学院举办了一次为期两个月的研讨会[^2]:

参与者:

  • John McCarthy(会议发起人,创造了"Artificial Intelligence"一词)
  • Marvin Minsky
  • Claude Shannon(信息论创始人)
  • Nathaniel Rochester

成果:

  • ✅ 首次正式使用"人工智能"(Artificial Intelligence)这个术语
  • ✅ 确立 AI 作为独立研究领域
  • ✅ 提出了许多至今仍重要的研究方向

当时的天真预测: 与会者乐观地认为20 年内机器就能完成人类能做的任何工作。 现实:这个预测过于乐观,直到今天仍未实现。


二、AI 的黄金时期 (1956-1974)

早期成就

在达特茅斯会议后的近 20 年里,AI 研究取得了许多早期成功:

1. 逻辑理论家 (1956)

  • 成就: 证明了《数学原理》中的 38 条定理
  • 意义: 第一个运行的 AI 程序

2. 通用问题求解器 (General Problem Solver, 1957)

  • 目标: 模仿人类解决问题的方法
  • 方法: 通过"手段-目的分析"解决问题

3. ELIZA (1966) - 早期聊天机器人

  • 创造者: Joseph Weizenbaum
  • 功能: 模仿心理治疗师与用户对话
  • 意义: 展示了人机对话的可能性

有趣的事实: 尽管 ELIZA 只使用简单的模式匹配,但许多用户真的相信它具有理解能力。

乐观与资助

  • 政府资助: 美国国防高级研究计划局(DARPA)开始资助 AI 研究
  • 社会期待: 大众媒体对 AI 充满期待
  • 学术发展: 许多大学开设 AI 课程,建立实验室

三、第一次 AI 寒冬 (1974-1980)

为什么进入寒冬?

尽管早期取得了一些成功,但 AI 研究很快遇到了严重的瓶颈[^3]:

技术瓶颈

  1. 计算能力不足

    • 当时的计算机性能极其有限
    • 无法处理复杂的真实世界问题
  2. 数据匮乏

    • 没有足够的数据用于训练
    • 机器学习方法难以发挥作用
  3. 常识问题

    • AI 系统缺乏人类日常的"常识"
    • 例如:知道"鸟会飞",但不知道"企鹅不会飞"
  4. 莫拉维克悖论

    • 发现:让 AI 学会下棋比学会像幼儿一样走路和抓取物体要容易得多

现实与预期的落差

当初的承诺: "20 年内机器能做任何人类能做的事" 实际成果: 只能解决极其有限的"玩具问题"

结果:

  • ❌ 政府和机构削减 AI 研究资助
  • ❌ 研究人员失业或转向其他领域
  • ❌ "AI"这个词变得不受欢迎

四、AI 的复兴与专家系统 (1980-1987)

专家系统的兴起

专家系统(Expert Systems)是基于规则的 AI 系统,旨在模仿人类专家的决策过程。

典型例子

1. XCON (1980)

  • 公司: DEC (Digital Equipment Corporation)
  • 功能: 自动配置计算机系统
  • 成就: 每年为 DEC 节省数千万美元
  • 意义: 第一个成功的商业化 AI 系统

2. MYCIN (1970s)

  • 功能: 诊断血液感染并推荐抗生素
  • 准确率: 在某些测试中超过人类专家
  • 问题: 从未在实际临床中使用(法律和伦理原因)

专家系统的特点

优势:

  • 在特定领域表现优秀
  • 能解释推理过程
  • 可以保存专家知识

局限:

  • 需要人工编写大量规则
  • 无法处理不确定信息
  • 缺乏学习能力
  • 维护成本高昂

1980 年代的 AI 繁荣

  • 产业投资: 企业纷纷投资 AI 研发
  • 日本第五代计算机项目(1982): 投资 5 亿美元开发智能计算机
  • 美国反应:担心落后,增加 AI 研究资助

五、第二次 AI 寒冬 (1987-1993)

再次失望

专家系统的热潮很快消退[^3]:

1. 技术问题

  • 脆弱性: 系统非常脆弱,稍有变化就崩溃
  • 维护困难: 规则越多,系统越难维护
  • 缺乏学习: 无法从新数据中学习

2. 商业失败

许多专家系统项目未能兑现承诺:

  • 开发成本远超预期
  • 维护成本持续上升
  • 实际收益有限

3. 硬件泡沫破裂

  • 专用 AI 计算机(Lisp 机)市场崩溃
  • 个人计算机(PC)性能提升,专用设备失去价值
  • AI 硬件公司纷纷破产

寒冬的表现

  • ❌ "AI"再次成为禁忌词汇
  • ❌ 资助大幅削减
  • ❌ 研究人员被迫改行或换个名称(如"信息技术"、"知识系统")

六、AI 的稳步发展 (1993-2011)

尽管处于"寒冬",AI 研究仍在稳步前进,并取得了一些实质性突破:

1. 深蓝击败人类世界冠军 (1997)

事件: IBM 的"深蓝"(Deep Blue)击败国际象棋世界冠军加里·卡斯帕罗夫[^4]

意义:

  • ✅ 第一次在智力游戏中战胜人类世界冠军
  • ✅ 证明了暴力搜索算法的威力
  • ⚠️ 但这仍然不是真正的"智能",而是强大的计算能力

2. 机器学习的兴起

从 1990 年代开始,机器学习逐渐成为 AI 的主流方法:

统计学习理论:

  • Vladimir Vapnik 提出支持向量机(SVM)
  • 基于数据而非规则的 AI 方法

实际应用:

  • 垃圾邮件过滤
  • 信用卡欺诈检测
  • 推荐系统

3. 神经网络的缓慢复兴

虽然神经网络在 1969 年曾遭到批评(Minsky 和 Papert 的书《感知机》),但在 2000 年代开始复苏:

关键进展:

  • 反向传播算法逐渐普及(1986 年提出,但多年后才被广泛应用)
  • 深度学习概念开始出现(2006 年,Geoffrey Hinton 等人)

为什么重要: 为后来的深度学习革命打下基础。


七、深度学习革命 (2012-2017)

2012: AlexNet - 深度学习的爆发点

事件: AlexNet 在 ImageNet 图像识别竞赛中大幅领先[^5]

成就:

  • 错误率: 从 26% 降低到 15.3%
  • 方法: 使用深度卷积神经网络(CNN)
  • 技术: GPU 加速训练

意义:

  • ✅ 标志着深度学习时代的开始
  • ✅ 引发了 AI 研究和投资的狂热
  • ✅ 奠定了现代 AI 的技术路线

深度学习的优势

为什么深度学习如此成功?

  1. 数据: 互联网和移动设备产生海量数据
  2. 算力: GPU 让大规模神经网络训练成为可能
  3. 算法: 算法改进(ReLU、Dropout、Batch Normalization)
  4. 开源框架: TensorFlow (2015)、PyTorch (2016) 降低开发门槛

应用爆发

深度学习在多个领域取得突破:

  • 计算机视觉: 人脸识别、自动驾驶
  • 语音识别: Siri、Alexa 的语音助手
  • 自然语言处理: 机器翻译、文本生成

八、Transformer 诞生 (2017)

论文:《Attention Is All You Need》

2017 年 6 月,Google 研究团队发表了里程碑式论文[^6]:

核心贡献:

  • 提出了 Transformer 架构
  • 证明了自注意力机制(Self-Attention)的威力

为什么重要?

  1. 并行计算: 与 RNN/LSTM 不同,Transformer 可以并行处理
  2. 长距离依赖: 更好地捕捉长文本中的关系
  3. 可扩展性: 可以训练非常大的模型

影响: Transformer 成为大语言模型(LLM)的基础架构,改变了 NLP 的研究范式。


九、GPT 系列的演进 (2018-2024)

GPT 系列:OpenAI 的语言模型进化史

模型发布时间参数量关键特点
GPT-12018.06117M首次使用 Transformer 解码器
GPT-22019.021.5B"太危险不能发布"的争议
GPT-32020.05175B展现了少样本学习能力
ChatGPT2022.11基于 GPT-3.5引爆全球 AI 热潮
GPT-42023.03未公开(估计>1T)多模态能力,更强推理

关键里程碑

1. GPT-1 (2018) - 证明概念

  • 发布者: OpenAI
  • 突破: 首次使用无监督预训练 + 微调范式
  • 意义: 证明了大规模语言模型的潜力

2. GPT-2 (2019) - "太危险不能发布"

  • 成就: 生成的文本惊人地连贯
  • 争议: OpenAI 最初拒绝完整发布模型,担心被滥用
  • 最终: 分阶段发布,完整版于 2019 年 11 月发布

3. GPT-3 (2020) - 少样本学习

突破性能力[^7]:

  • Few-shot Learning: 只需几个示例就能学会新任务
  • 规模效应: 更大规模带来了意外的能力涌现
  • 广泛应用: 代码生成、文本创作、问答等

商业影响:

  • OpenAI 开始提供 API 服务
  • 数千个应用基于 GPT-3 构建

4. ChatGPT (2022.11) - 引爆点

成就:

  • 5 天用户突破 100 万
  • 2 个月用户突破 1 亿(成为历史上增长最快的应用)
  • 质量: 对话能力显著提升,更符合人类习惯

影响:

  • 引发全球 AI 竞赛
  • Google、Meta、百度等加速发布竞品
  • 大众开始真正关注 AI

5. GPT-4 (2023.03) - 多模态时代

新能力:

  • 📝 文本: 更强的理解和生成
  • 🖼️ 图像: 理解图像内容(目前仅输入)
  • 💻 代码: 更强大的编程能力
  • 🧠 推理: 复杂任务处理能力提升

十、其他重要模型

AI 的进步不仅限于 GPT 系列:

Claude 系列 (Anthropic)

  • Claude 1 (2023): 注重安全和有用性
  • Claude 2 (2023): 更长上下文(100K tokens)
  • Claude 3 (2024): Opus、Sonnet、Haiku 三档模型

Gemini 系列 (Google)

  • Gemini 1.0 (2023): 原生多模态
  • Gemini 2.0 (2024): 性能大幅提升

LLaMA 系列 (Meta)

  • LLaMA (2023.02): 开源模型
  • LLaMA 2 (2023.07): 商业可用
  • LLaMA 3 (2024): 性能超越 GPT-3.5

中国模型

  • 文心一言 (百度, 2023)
  • 通义千问 (阿里, 2023)
  • Kimi (月之暗面, 2024)
  • DeepSeek (深度求索, 2024)

十一、AI 发展的启示

1. 发展模式:波浪式前进

AI 的发展不是线性进步,而是经历了多次繁荣与寒冬:

1956-1974: 黄金时期
1974-1980: 第一次寒冬
1980-1987: 复兴(专家系统)
1987-1993: 第二次寒冬
1993-2011: 稳步发展
2012-至今: 深度学习革命

教训:

  • 🔍 避免过度承诺
  • 🔍 关注实际应用而非炒作
  • 🔍 技术突破需要积累和耐心

2. 当前阶段:深度学习的黄金时代

为什么现在这么火?

  1. 三要素齐备:

    • 数据:互联网产生海量数据
    • 算法:Transformer、深度学习
    • 算力:GPU、TPU、云计算
  2. 实际应用:AI 真的在解决实际问题

  3. 商业价值:巨大的经济效益

  4. 社会影响:深刻改变生活方式

3. 未来展望:下一个突破在哪里?

热门方向:

  • 🤖 AI Agent:自主决策和行动的 AI
  • 🧠 AGI(通用人工智能):仍遥远,但研究活跃
  • 🎯 多模态:文本、图像、音频、视频统一理解
  • 🔬 科学发现:AI 加速科研(AI for Science)

本章小结

核心要点

  1. 1950 年代:图灵测试和达特茅斯会议奠定 AI 基础
  2. 两次寒冬:过度承诺导致失望,但也积累了经验
  3. 2012 年:深度学习爆发,AI 进入新时代
  4. 2017 年:Transformer 诞生,为大语言模型铺路
  5. 2022 年:ChatGPT 引爆全球 AI 热潮
  6. 现状:处于深度学习的黄金时代,但 AGI 仍遥远

关键里程碑时间轴

1950 ── 图灵测试

1956 ── 达特茅斯会议,AI 诞生

1997 ── 深蓝击败国际象棋冠军

2012 ── AlexNet,深度学习爆发

2017 ── Transformer 论文发表

2020 ── GPT-3 展现大规模模型潜力

2022 ── ChatGPT 引爆全球

2024 ── 多模态、Agent 成为重点

思考题

  1. 基础题:为什么 AI 发展经历了两次寒冬?这对当前 AI 发展有什么启示?
  2. 进阶题:Transformer 为什么被认为是里程碑式突破?它与之前的架构有什么不同?
  3. 挑战题:你认为 AI 发展的下一个大突破会是什么?为什么?

实践探索

推荐活动:

  1. 体验 AI 演进:

  2. 阅读经典论文(选读):

    • "Attention Is All You Need" (Transformer 原论文)
    • "Language Models are Few-Shot Learners" (GPT-3 论文)
  3. 时间线探索:


扩展阅读

书籍:

  • "Genius Makers: The Mavericks Who Brought AI to Google, Facebook, and the World" by Cade Metz
  • "The Master Algorithm" by Pedro Domingos

在线资源:

视频:


下一章:我们将探讨 AI Agent 的概念,了解它如何从传统的 AI 助手进化而来。

← 返回模块首页 | 继续学习:什么是 AI Agent? →


[^1]: Alan Turing, "Computing Machinery and Intelligence", Mind, 1950. [^2]: Dartmouth Conference, "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence", 1956. [^3]: TechTarget, "The history of artificial intelligence: Complete AI timeline", September 2024. https://www.techtarget.com/searchenterpriseai/tip/The-history-of-artificial-intelligence-Complete-AI-timeline [^4]: Design News, "From Turing to GPT-4: The Evolution of AI Through Key Milestones", July 2025. https://www.designnews.com/artificial-intelligence/from-turing-to-gpt-4-the-evolution-of-ai-through-key-milestones-breakthroughs [^5]: Alex Krizhevsky et al., "ImageNet Classification with Deep Convolutional Neural Networks", NIPS 2012. [^6]: Vaswani et al., "Attention Is All You Need", NIPS 2017. [^7]: Brown et al., "Language Models are Few-Shot Learners", NeurIPS 2020 (GPT-3 论文) [^8]: DeMicco, "AI Timeline: A Visual Journey Through Artificial Intelligence". https://www.demicco.com/ai-timeline/ [^9]: TechTarget, "The history of artificial intelligence: Complete AII timeline", https://www.techtarget.com/searchenterpriseai/tip/The-history-of-artificial-intelligence-Complete-AI-timeline [^10]: Spencer Chin, "From Turing to GPT-4: The Evolution of AI", Design News, July 2025. https://www.designnews.com/artificial-intelligence/from-turing-to-gpt-4-the-evolution-of-ai-through-key-milestones-breakthroughs

最近更新

基于 Apache 2.0 许可发布