**TL; DR**:
借助大模型的*尺子*和复杂性的*棱镜*,研究**人类语言**和**语言模型**的内在复杂动力学特征。
# 人类语言的分形维度
利用大模型技术**首次发现**人类语言存在跨语言不变的稳定分形结构,其分形维度约为6.5。
- 该维度与测量所用大模型架构(Transformer / Mamba)无关
- 编程语言(C、Java、Python)维度约为5
![[分形维度.png|240]] ![[分形维度-axis.png|380]]
# 分形维度反映内蕴语义复杂度
发现该分形维度反映文本的内蕴复杂性。
- 语义简单的文本维度低、复杂文本维度高,而与表面符号重复率无关。
- 重复、逻辑不连贯、枯燥的文本,分形维度较低。
![[Public/_img/degeneration.png#pic_center|500]]
# 大模型预训练的三个阶段
发现大语言模型的预训练过程存在三个阶段:*短距学习*、*长距学习*、*泛化*
- 短距学习:快速掌握词法、句法
- 长距学习:学习语义等长距离模式
- 泛化:遗忘固定句式,掌握书写技能
![[预训练的三个阶段.png#pic_center|500]]
# 参考文献
\[1\] Xin Du and Kumiko Tanaka-Ishii. Correlation Dimension of Autoregressive Large Language Models. [_NeurIPS 2025_](https://arxiv.org/abs/2510.21258)
\[2\] Xin Du and Kumiko Tanaka-Ishii. Correlation Dimension of Natural Language in A Statistical Manifold. [_Physical Review Research. 2024_](https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.6.L022028)