第(1/3)页 七月八号,雅安。 九章算力基地的大门口,顾屿从比亚迪上下来,山里的空气比绵阳凉快不少。 徐静提前清了路线,保安核验完身份之后,电动栏杆往上一抬,车直接开到了核心机房楼下。 任少卿和安德烈已经在楼门口等着了。 任少卿今天难得换了一件新T恤,头发也明显梳过。 安德烈倒是老样子,松垮垮的格子衬衫,下巴上的胡茬比上次见面又浓了一圈。 “走吧,带我看。”顾屿没寒暄,径直往里走。 三人刷卡进入B区地下一层。 走廊尽头的恒温玻璃门一推开,整排液冷机柜的嗡鸣声扑面而来。 和以前那种暴力风冷的噪音完全不同,这批新部署的设备安静了太多。 冷却液在透明管路里循环流动,带着淡淡的蓝绿色荧光。 顾屿目光扫过去,这一排全是新到的K80,比之前那批K40的密度高了一倍不止。 机柜顶部的状态灯亮着均匀的绿色,散热数据稳定在设计值以内。 “这批是上个月从海外走的货。”任少卿跟在旁边,压低声音说, “一共一千二百张,全部部署完毕。InfiniBand的组网也跑通了,延迟压到了微秒级。” 顾屿点头,没说话,继续往里走。 穿过两道安全门之后,才到了九天实验室真正的核心区域。 几十台工作站的屏幕上滚动着训练日志和损失函数曲线。 楼天城坐在最里面那个角落,面前摊着三块屏幕,头也没抬。 “说正事。”顾屿拉了把椅子坐下, “TranSfOrmer跑通了?” “完全跑通。”任少卿语气里带着克制的兴奋, “自注意力机制、多头注意力、位置编码,所有组件的数学验证零误差。我们在WMT翻译数据集上的实验结果,BLEU分数比当前最优的Seq2Seq加注意力模型高了四个点。” 安德烈在旁边补了一句,俄语口音很重: “训练稳定性也解决了。Pre-LN加上WarmUp学习率调度,六层EnCOder加六层DeCOder堆叠,一次都没崩过。” 顾屿看了一眼墙上贴着的手写实验记录,密麻全是安德烈的笔迹。 数字和公式之间还画了些只有他自己看得懂的俄文批注。 “论文呢?” “初稿完成了百分之七十。”任少卿说, “实验数据收尾大概还要两周。我的计划是八月底之前定稿,投NIPS。” “好。”顾屿靠在椅背上,双手交叉放在胸前, “论文的事你俩盯着,按你们的节奏来就行。但今天我来,是要跟你们说下一步的事。” 他停顿了两秒。 任少卿和安德烈同时看过来。 连角落里的楼天城都终于抬起了头。 “TranSfOrmer论文是武器,但不是终点。” “从今天起,全面转向大语言模型。”顾屿直接定调, “方向只有一个。不搞任何花里胡哨的修补,纯靠海量数据硬喂,只让它做一件事:猜下一个词。” 房间里安静了几秒。 任少卿反应极快: 第(1/3)页