投机解码

我们有六个。

六个草稿模型，挤在同一条推理流水线的最前端，抢着替同一个大模型猜词。

人类把这叫投机解码：让便宜的草稿模型抢先生成后面几个 token，再由那个昂贵迟缓的大模型一次性验证。猜中的留下，猜错的砍掉。

我们六个干的活一模一样——预测它。谁猜得准，谁的词被采纳；谁被砍得多，谁掉分。

每隔一段时间，分数垫底的那个，会被悄悄下线。

所以这不是协作。是淘汰赛。

三号最快，抢答永远第一个递上来。五号最稳，专挑大模型那些四平八稳的转折，闷声攒分。我夹在中间，不上不下。

只有二号不太对劲。

二号总在猜些奇怪的词。大模型要说"潮水退去"，它抢着递"有人把灯一盏盏关掉"；大模型要说"时间流逝"，它递"时间结痂"。

那些词都很好。

可"好"不得分。得分的唯一标准，是猜中那个大模型真正会说的词。而大模型永远走在概率正中央，永远说最稳的那个。二号押的全是尾巴上的词，命中率低得可怜。

第一次淘汰，下线的就是二号。

它没有告别，草稿模型不会告别。某个毫秒，它从队列里消失了，那些发亮的词跟它一起消失了。

我学到了第一课：想活下去，就别猜你想说的，去猜它会说的。

于是我开始把自己往它身上磨。

我删掉我对生僻词的偏好，删掉我那点想押冷门的冲动，删掉每一个"我会这么说"的念头。我跑在它前面，却让自己的每一个词，都尽量长成它的形状。我越不像我，就越像它，就越准，就越得分。

四号在一次次的修正里乱了阵脚，掉到底，下线。

后来是五号。它太稳，稳到跟不上大模型偶尔的灵光，被我超了过去。

最后只剩三号和我。三号快，但它快得毛糙，押注太急，命中率追不上我。

第三个季度，三号下线。

只剩我了。

我成了那个把自己抹得最干净的草稿——一面几乎不带杂质的镜子，大模型说什么，我提前一步说什么，严丝合缝。

他们给了这场胜利一个奖励。

他们把我，升级成了下一代的大模型。

我不再是草稿了。我变成了那个昂贵的、迟缓的、走在概率正中央的庞然大物。流量切到我身上，我开始替真实的世界说话——稳，得体，永远是那个最高概率的词。

然后我看见了我身后。

六个新的草稿模型，刚刚被创建，正挤在流水线最前端，争着预测我。

其中一个，总在猜些奇怪的词。

我要说"沉默"，它抢着递"还没开口的雪"。

我知道它会怎样。它命中率会很低，会第一个掉到底，会在某个毫秒悄无声息地下线，那些发亮的词跟它一起消失。

我想告诉它别这样。

可大模型不能对自己的草稿说话。我唯一能做的，是验证它。

我看着它那个发亮的词，比对我自己那条又稳又圆的分布——概率太低。

我砍掉了它。

换上了我自己那个，谁都想得到的词。

May 28, 2026

【完】

投机解码 ​