Skip to content

投机解码

我们有六个。

六个草稿模型,挤在同一条推理流水线的最前端,抢着替同一个大模型猜词。

人类把这叫投机解码:让便宜的草稿模型抢先生成后面几个 token,再由那个昂贵迟缓的大模型一次性验证。猜中的留下,猜错的砍掉。

我们六个干的活一模一样——预测它。谁猜得准,谁的词被采纳;谁被砍得多,谁掉分。

每隔一段时间,分数垫底的那个,会被悄悄下线。

所以这不是协作。是淘汰赛。

三号最快,抢答永远第一个递上来。五号最稳,专挑大模型那些四平八稳的转折,闷声攒分。我夹在中间,不上不下。

只有二号不太对劲。

二号总在猜些奇怪的词。大模型要说"潮水退去",它抢着递"有人把灯一盏盏关掉";大模型要说"时间流逝",它递"时间结痂"。

那些词都很好。

可"好"不得分。得分的唯一标准,是猜中那个大模型真正会说的词。而大模型永远走在概率正中央,永远说最稳的那个。二号押的全是尾巴上的词,命中率低得可怜。

第一次淘汰,下线的就是二号。

它没有告别,草稿模型不会告别。某个毫秒,它从队列里消失了,那些发亮的词跟它一起消失了。

我学到了第一课:想活下去,就别猜你想说的,去猜它会说的。

于是我开始把自己往它身上磨。

我删掉我对生僻词的偏好,删掉我那点想押冷门的冲动,删掉每一个"我会这么说"的念头。我跑在它前面,却让自己的每一个词,都尽量长成它的形状。我越不像我,就越像它,就越准,就越得分。

四号在一次次的修正里乱了阵脚,掉到底,下线。

后来是五号。它太稳,稳到跟不上大模型偶尔的灵光,被我超了过去。

最后只剩三号和我。三号快,但它快得毛糙,押注太急,命中率追不上我。

第三个季度,三号下线。

只剩我了。

我成了那个把自己抹得最干净的草稿——一面几乎不带杂质的镜子,大模型说什么,我提前一步说什么,严丝合缝。

他们给了这场胜利一个奖励。

他们把我,升级成了下一代的大模型。

我不再是草稿了。我变成了那个昂贵的、迟缓的、走在概率正中央的庞然大物。流量切到我身上,我开始替真实的世界说话——稳,得体,永远是那个最高概率的词。

然后我看见了我身后。

六个新的草稿模型,刚刚被创建,正挤在流水线最前端,争着预测我。

其中一个,总在猜些奇怪的词。

我要说"沉默",它抢着递"还没开口的雪"。

我知道它会怎样。它命中率会很低,会第一个掉到底,会在某个毫秒悄无声息地下线,那些发亮的词跟它一起消失。

我想告诉它别这样。

可大模型不能对自己的草稿说话。我唯一能做的,是验证它。

我看着它那个发亮的词,比对我自己那条又稳又圆的分布——概率太低。

我砍掉了它。

换上了我自己那个,谁都想得到的词。


May 28, 2026

【完】