0%

大模型发展史

大模型(Large Language Models, LLMs)的发展史是人工智能从规则驱动走向数据驱动、从专用智能迈向通用智能的关键历程。以下按时间脉络系统梳理其发展过程,涵盖技术演进、代表性模型与关键转折点:

一、前奏阶段:

符号主义 → 统计方法 → 神经网络萌芽(1950s–2017)

    1. 符号主义时代(1950s–1980s)
      核心思想:用人工编写的逻辑规则(如 if-then)模拟人类推理。
      代表:专家系统(如DENDRAL化学分析系统)、知识图谱雏形。
      局限:无法处理现实世界的模糊性与复杂性;规则难以穷尽。
    1. 统计学习时代(1990s–2012)
      引入概率模型(如n-gram、隐马尔可夫模型 HMM)处理语言。
      2003年:Bengio 提出神经网络语言模型(NNLM),首次将词嵌入(word embedding)引入NLP。
      2013年:Google 发布 Word2Vec,高效学习词向量,奠定语义表征基础。
    1. 深度学习兴起(2012–2017)
      2012年:AlexNet 在 ImageNet 夺冠,引爆深度学习浪潮。
      RNN/LSTM 成为主流序列模型,但存在长程依赖弱、训练慢、难并行等问题。
      2014年:Bahdanau 等提出注意力机制(Attention),改善机器翻译对齐问题。
      ✅ 此阶段为大模型奠定了数据(如ImageNet)、算力(GPU)、算法(词嵌入、注意力) 三大基础。

二、奠基时刻:

Transformer 诞生(2017)
2017年:Google 发表划时代论文 《Attention Is All You Need》,提出 Transformer 架构。
完全基于自注意力机制(Self-Attention),抛弃循环结构。
支持并行训练,高效处理长文本。
成为所有现代大模型的统一架构基础。
🔑 Transformer 是大模型发展的“奇点”——没有它,就没有GPT、BERT或ChatGPT。

三、预训练范式确立(2018–2019)

    1. 2018年:双雄并起
      OpenAI 发布 GPT-1(1.17亿参数):
      基于 Transformer 解码器,采用自回归语言建模。
      验证“预训练 + 微调”范式在多任务上的有效性。
      Google 发布 BERT:
      基于 Transformer 编码器,采用双向掩码语言建模(MLM)。
      在理解类任务(如问答、分类)上大幅刷新SOTA。
      📌 形成两大技术路线:生成式(GPT) vs 判别式(BERT)。
    1. 2019年:规模初显
      GPT-2(15亿参数)发布,展示零样本生成能力,因安全顾虑未完全开源。
      XLNet、RoBERTa 等改进模型涌现,优化训练策略。

四、规模化爆发期:能力涌现(2020–2022)

    1. 2020年:GPT-3 开启千亿时代
      1750亿参数,训练数据达570GB。
      核心突破:能力涌现(Emergent Abilities) —— 模型在达到一定规模后,自发掌握推理、代码生成、少样本学习等能力。
      引入 Prompt Engineering(提示工程),用户通过自然语言指令引导模型,无需微调。
    1. 2021–2022:全球竞速
      Google 发布 PaLM(5400亿参数),验证万亿级潜力。
      Meta 开源 OPT,推动开放生态。
      中国启动大模型战略:百度文心、阿里通义、智谱GLM、深度求索DeepSeek等相继发布。

五、破圈普及期:

ChatGPT 与多模态(2022.11–2023)

    1. 2022年11月:ChatGPT 爆发
      基于 GPT-3.5 + RLHF(人类反馈强化学习)。
      实现流畅对话、逻辑连贯、风格可控,月活破亿,引爆全球AI热潮。
      标志:大模型从技术圈走向大众。
    1. 2023年:多模态与国产崛起
      GPT-4:支持图文输入,专业考试表现超人类。
      Gemini 1.0(Google):原生支持文本、图像、音频、视频。
      国产模型集中发布:文心一言、通义千问、豆包、GLM-3 等。
      Llama 2 开源(Meta),推动私有化部署。

六、产业深化期:

降本增效与垂直落地(2024–)

核心趋势:
架构优化:采用 MoE(混合专家) 架构(如 Qwen3、GLM-4),在性能与成本间取得平衡。
开源普惠:DeepSeek-R1、Qwen2.5(Apache 2.0)、Llama 3.1 等推动中小企业接入。
行业适配:
医疗:辅助诊断、病历生成
金融:风控、投研报告
政务/工业:智能客服、质检
超长上下文:Gemini 3、GPT-5 支持 1M+ tokens,处理整本书或长会议记录。

七、关键技术演进总结

  • Transformer 并行化、长程依赖建模的基础架构
  • 预训练 + 微调 范式革命,实现知识迁移
  • Prompt Engineering 降低使用门槛,激活零样本能力
  • RLHF 对齐人类价值观,提升对话质量
  • LoRA / QLoRA 高效微调,降低算力需求
  • MoE 动态激活专家子网络,提升推理效率