首页 > 玄幻魔法 > 学霸的征途是星辰大海 > 第301章真理的启迪者三

第301章真理的启迪者三

⚡ 自动翻页 开启后阅读到底自动进入下一章

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

&emsp;&emsp;稍微適应了一下升级后的大脑，徐辰估摸著deepseek的论文应该是发出来了。

&emsp;&emsp;他打开电脑，熟练地登录arxiv，输入了关键词。

&emsp;&emsp;果然，那篇论文赫然在列。

&emsp;&emsp;徐辰在公寓里下载了这篇论文，仔细研读了一遍。

&emsp;&emsp;论文的核心原理极其惊艷，直击当前大语言模型（llm）的软肋：现有的transformer架构虽然通过moe（混合专家）实现了“条件计算”，但缺乏原生的知识查找机制。

&emsp;&emsp;当模型需要回忆一个静態事实的时候，比如“巴黎是法国的首都”，它只能通过消耗宝贵的注意力机制和前馈网络层去“重新计算”和“模擬提取”。这就像是让一个顶级数学家去死记硬背电话號码，极大地浪费了推理算力。

&emsp;&emsp;而deepseek给出的解法，正是“条件记忆”。

&emsp;&emsp;他们引入了一个名为“engram（记忆印跡）”的模块，將经典的n-gram嵌入现代化，实现了o(1)时间复杂度的常数级知识查找。简单来说，模型不再需要死记硬背，而是学会了“查字典”。

&emsp;&emsp;论文中还提出了一条“u型缩放定律”，证明了將大约20%到25%的稀疏参数分配给engram模块时，模型性能达到最优。更恐怖的是，由於engram的查找是確定性的，它完全可以绕开昂贵的gpu显存（hbm）限制，直接从廉价的主机內存（dram）中进行运行时预取，几乎没有额外的性能开销。

&emsp;&emsp;“干得漂亮。”

&emsp;&emsp;徐辰看著论文里的架构图，暗自点头。

&emsp;&emsp;以他升级后的信息学lv2的眼光来看，梁文锋的这个成果，和系统当初给出的那个完美的d-ltmn方案相比，其实做了一些工程上的妥协。

&emsp;&emsp;系统方案更偏向於底层硬体架构的微调，而deepseek则是在现有的gpu集群和transformer框架下，做到了软体层面的极致压榨。

&emsp;&emsp;“这算是……系统方案的『青春版』？”

&emsp;&emsp;徐辰摸了摸下巴。

第301章 真理的启迪者 三

第301章真理的启迪者三