**TL; DR**: 借助大模型的*尺子*和复杂性的*棱镜*,研究**人类语言**和**语言模型**的内在复杂动力学特征。 # 人类语言的分形维度 利用大模型技术**首次发现**人类语言存在跨语言不变的稳定分形结构,其分形维度约为6.5。 - 该维度与测量所用大模型架构(Transformer / Mamba)无关 - 编程语言(C、Java、Python)维度约为5 ![[分形维度.png|240]] ![[分形维度-axis.png|380]] # 分形维度反映内蕴语义复杂度 发现该分形维度反映文本的内蕴复杂性。 - 语义简单的文本维度低、复杂文本维度高,而与表面符号重复率无关。 - 重复、逻辑不连贯、枯燥的文本,分形维度较低。 ![[degeneration.png#pic_center|500]] # 大模型预训练的三个阶段 发现大语言模型的预训练过程存在三个阶段:*短距学习*、*长距学习*、*泛化* - 短距学习:快速掌握词法、句法 - 长距学习:学习语义等长距离模式 - 泛化:遗忘固定句式,掌握书写技能 ![[预训练的三个阶段.png#pic_center|500]] # 参考文献 - Xin Du and Kumiko Tanaka-Ishii. Correlation Dimension of Autoregressive Large Language Models. [_NeurIPS 2025_](https://arxiv.org/abs/2510.21258) - Xin Du and Kumiko Tanaka-Ishii. Correlation Dimension of Natural Language in A Statistical Manifold. [_Physical Review Research. 2024_](https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.6.L022028)