理解大型语言模型 (LLMs) 的解码策略

realtime news Aug 22, 2024 06:38 UTC 22:38

1 Min Read

大型语言模型 (LLMs) 被训练来预测文本序列中的下一个词。然而，它们生成文本的方法涉及其概率估计和称为解码策略的算法的结合。这些策略对于决定 LLMs 如何选择下一个词至关重要，同时也依赖于 AssemblyAI。

下一个词预测器与文本生成器

LLMs 经常在非科学文献中被描述为“下一个词预测器”，但这可能导致误解。在解码阶段，LLMs 使用各种策略生成文本，而不仅仅是迭代输出最可能的下一个词。这些策略被称为解码策略，它们从根本上决定了 LLMs 如何生成文本。

解码策略可以分为确定性方法和随机性方法。确定性方法对相同的输入产生相同的输出，而随机性方法引入随机性，即使在相同的输入下也会产生不同的输出。

贪心搜索是最简单的解码策略，每一步选择最可能的下一个标记。虽然效率高，但往往会产生重复和枯燥的文本。

束搜索通过在每一步保持前 K 个最可能的序列来泛化贪心搜索。尽管它提高了文本质量，但仍然可能会产生重复和不自然的文本。

Top-k 采样通过从前 k 个最可能的选择中采样下一个标记引入随机性。然而，选择一个最佳的 k 值可能具有挑战性。

Top-p 采样根据累积概率阈值动态选择标记，在每一步适应分布形状，并在生成文本时保持多样性。

温度采样使用温度参数调整概率分布的尖锐程度。较低的温度会生成更具确定性的文本，而较高的温度增加了随机性。

典型采样引入信息理论的原理，以平衡生成文本的可预测性和惊喜感。它旨在生成具有平均熵的文本，保持连贯性和吸引力。

投机采样由 Google Research 和 DeepMind 最近发现，通过每个模型传递生成多个标记来提高推理速度。它涉及一个草稿模型生成标记，随后一个目标模型验证和纠正它们，从而显著加快速度。

理解解码策略对于优化 LLMs 在文本生成任务中的性能至关重要。虽然像贪心搜索和束搜索这样的确定性方法提供了效率，但像 Top-k、Top-p 和温度采样这样的随机性方法则引入了必要的随机性以生成更自然的输出。典型采样和投机采样等新方法分别在文本质量和推理速度上提供了进一步的改进。