语言的分形维度 - Attractor Lab

**TL; DR**: 借助大模型的*尺子*和复杂性的*棱镜*，研究**人类语言**和**语言模型**的内在复杂动力学特征。 # 人类语言的分形维度利用大模型技术**首次发现**人类语言存在跨语言不变的稳定分形结构，其分形维度约为6.5。 - 该维度与测量所用大模型架构（Transformer / Mamba）无关 - 编程语言（C、Java、Python）维度约为5 ![[分形维度.png|240]] ![[分形维度-axis.png|380]] # 分形维度反映内蕴语义复杂度发现该分形维度反映文本的内蕴复杂性。 - 语义简单的文本维度低、复杂文本维度高，而与表面符号重复率无关。 - 重复、逻辑不连贯、枯燥的文本，分形维度较低。 ![[degeneration.png#pic_center|500]] # 大模型预训练的三个阶段发现大语言模型的预训练过程存在三个阶段：*短距学习*、*长距学习*、*泛化* - 短距学习：快速掌握词法、句法 - 长距学习：学习语义等长距离模式 - 泛化：遗忘固定句式，掌握书写技能 ![[预训练的三个阶段.png#pic_center|500]] # 参考文献 - Xin Du and Kumiko Tanaka-Ishii. Correlation Dimension of Autoregressive Large Language Models. [_NeurIPS 2025_](https://arxiv.org/abs/2510.21258) - Xin Du and Kumiko Tanaka-Ishii. Correlation Dimension of Natural Language in A Statistical Manifold. [_Physical Review Research. 2024_](https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.6.L022028)