第139章新的SOTA

⚡ 自动翻页 开启后阅读到底自动进入下一章

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

&emsp;&emsp;风扇的轰鸣声仿佛透过网络传了过来。

&emsp;&emsp;屏幕上，一行行日誌开始飞速滚动。

&emsp;&emsp;epoch 1/100 | loss: 2.4582 | accuracy: 12.4%

&emsp;&emsp;epoch 2/100 | loss: 1.8923 | accuracy: 28.7%...

&emsp;&emsp;起初，loss曲线的下降並不算快，这在徐辰的预料之中。因为laart模型引入了复杂的几何约束，模型在初期需要花费大量时间去“寻找”那些逻辑盒子在向量空间中的正確位置。

&emsp;&emsp;这就像是在玩拼图，刚开始总是最慢的。

&emsp;&emsp;徐辰没有盯著屏幕发呆，他起身给自己泡了杯咖啡，顺便看了会美剧。

&emsp;&emsp;两个小时后。

&emsp;&emsp;当他再次回到屏幕前时，终端里的数据已经发生了翻天覆地的变化。

&emsp;&emsp;epoch 50/100 | loss: 0.1245 | accuracy: 94.2%

&emsp;&emsp;“收敛速度比预想的要快。”

&emsp;&emsp;徐辰眉毛一挑。

&emsp;&emsp;普通的transformer模型在处理逻辑推理任务时，往往需要海量的数据“餵”进去，靠概率去“蒙”出逻辑关係，所以收敛极慢，且很容易过擬合。

&emsp;&emsp;但laart不一样。

&emsp;&emsp;它的“逻辑门控单元”就像是一个严厉的老师，一旦模型试图“瞎矇”，就会被几何约束狠狠地惩罚。这迫使模型必须去学习真正的因果链条，而不是统计规律。

第139章 新的SOTA