第139章 新的SOTA
⚡ 自动翻页
开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽
看到章尾自动进入下一章,追书不用一直点。
  风扇的轰鸣声仿佛透过网络传了过来。
  屏幕上,一行行日誌开始飞速滚动。
  epoch 1/100 | loss: 2.4582 | accuracy: 12.4%
  epoch 2/100 | loss: 1.8923 | accuracy: 28.7%...
  起初,loss曲线的下降並不算快,这在徐辰的预料之中。因为laart模型引入了复杂的几何约束,模型在初期需要花费大量时间去“寻找”那些逻辑盒子在向量空间中的正確位置。
  这就像是在玩拼图,刚开始总是最慢的。
  徐辰没有盯著屏幕发呆,他起身给自己泡了杯咖啡,顺便看了会美剧。
  两个小时后。
  当他再次回到屏幕前时,终端里的数据已经发生了翻天覆地的变化。
  epoch 50/100 | loss: 0.1245 | accuracy: 94.2%
  “收敛速度比预想的要快。”
  徐辰眉毛一挑。
  普通的transformer模型在处理逻辑推理任务时,往往需要海量的数据“餵”进去,靠概率去“蒙”出逻辑关係,所以收敛极慢,且很容易过擬合。
  但laart不一样。
  它的“逻辑门控单元”就像是一个严厉的老师,一旦模型试图“瞎矇”,就会被几何约束狠狠地惩罚。这迫使模型必须去学习真正的因果链条,而不是统计规律。