**TL; DR**:
大模型在长期运行过程中为何频频“偷懒”(崩溃)?
如何预知大模型的崩溃并进行干预?
# 从长文本输入到长文本输出
**2018 — GPT / GPT2**
- Transformer 语言模型规模化起点
- 长文本生成首次可用(数百 token)
- 出现早期**重复循环 (repetition loop)**
**2020 — GPT-3**
- 上下文窗口扩大(~2k token),few-shot 能力出现
- 长文本生成成为实际应用场景
- 问题显现:语义漂移(semantic drift)、长程一致性丧失
**2022 — ChatGPT (GPT-3.5)**
- 对话式智能体出现
- 人类反馈(RLHF)引入
- 新问题:**逻辑断裂(reasoning breakdown)**、**对齐优先 vs 结构一致性冲突**
**2022 — 长文本输入问题(Long Context Understanding)**
- LongBench 等任务推动长上下文建模
- 核心瓶颈:注意力稀释(attention dilution)、信息压缩失真
**2023–2024 — 长上下文扩展(8k → 128k → 1M)**
- 问题转移:能“读”但不能“用”、长上下文 ≠ 长程推理
**2025 — 长文本输出(Long-form Generation)**
- LongWriter、持续生成系统、Agent loop
- 输出长度从“段落”→“文章”→“持续运行”
- 核心退化现象系统化:
- 重复循环(loop attractor)
- 逻辑断裂(structure collapse)
- 动力衰减(activity decay)
**问题从“能不能生成” → “能否稳定运行”**
## 模式坍缩:重复循环、逻辑断裂、动力衰减
![[degeneration-example.png|85%]]
图1. 模型(Qwen3)长期生成后陷入没有实际语义的句法循环。
大模型的宏观行为愈加复杂,常陷入不稳定状态。
- 重复循环:2020年起
- 逻辑断裂:2022年起
- 动力衰减:2025年起
**如何科学地定义和处理这些宏观退化现象?**
## 智能体退化
智能体的长期行为如何监控?如何指导智能体对任务的投入程度?
如何激励智能体不断自我迭代优化?
# 复杂动力学理论
**我们的路径**
从多时间尺度动力学角度,分析大模型生成过程中的快慢变量结构。
针对慢变量建立宏观行为归因方法和预警。
**目标:智能体动力学 (Agent Dynamics)**
从复杂系统视角建立描述智能体行为的基础理论。