推理計算在本十年結束時將成為一個巨大的計算工作負載。我認為它將比訓練大得多(尤其是如果考慮到強化學習的展開/訓練所需的推理)。 在硬體、平台和模型方面,這仍然是一個開放的競技場。 人們越來越明顯地願意為降低延遲支付額外費用。 在硬體方面,有幾個有趣的方向值得關注: - SRAM 風格的設置似乎很有前景(Cerebras 上的 GPT Spark,Nvidia 收購 Groq) - 解耦系統(在一台機器/處理器上預填,另一台上生成)可能非常有意義。預填與解碼的計算特性差異如此之大,在硬體層面專業化將帶來效率提升。 - 我也不會低估更奇特的技術,如 Taalas 晶片/近存儲計算等。雖然它們距離大規模部署仍然相當遙遠,但對效率提升的經濟壓力可能成為催化劑。 在算法/架構方面: - 幾乎每個主要的開放權重模型至少有一個優化,使其在推理時更快。無論是 MoE、SSM(或其他混合變體)、滑動窗口還是稀疏注意力。這裡的差異比一年前多得多。看看我們會在哪裡收斂將會很有趣。 - 擴散模型會統一預填/解碼的分裂嗎? - 我仍然相信在模型與硬體及工作負載的進一步共同設計中會有很大的收益。 我也不認為未來會有一個通用的解決方案: - 基於雲的模型可能與邊緣優化模型看起來非常不同。 - 模型可能會越來越多地為其部署的硬體共同設計。 - 至少會有一個旋鈕在延遲和功率效率/成本之間進行權衡。