LangChain推出用于LLM判定的自我改进评估器

realtime news Jun 27, 2024 22:11 UTC 14:11

1 Min Read

LangChain推出了一项革命性的解决方案，通过引入用于LLM判定系统的自我改进评估器，提高AI生成输出的准确性和相关性。据LangChain博客介绍，这项创新旨在使机器学习模型输出更接近人类的偏好。

LLM判定系统

评估大型语言模型（LLM）输出是一项复杂的任务，尤其是涉及生成性任务时，传统指标往往难以胜任。为了解决这一问题，LangChain开发了LLM判定方法，该方法利用一个单独的LLM对主模型的输出进行评分。尽管这种方法很有效，但它也引入了额外的Prompt工程需求，以确保评估器的性能。

LangSmith是LangChain的评估工具，现在包括了存储人类修正的自我改进评估器，作为少量示例。这些示例随后会被整合到未来的Prompt中，使评估器能够随着时间的推移不断改进。

自我改进评估器的开发受到两项关键研究成果的影响。第一是少量学习的已建立效能，其中语言模型从少量示例中学习以复制所需行为。第二是一项来自伯克利的研究，题为《谁验证评估者？将LLM辅助评估与人类偏好对齐》，强调了将AI评估与人类判断对齐的重要性。

LangSmith的自我改进评估器旨在通过减少手动Prompt工程的需求，简化评估过程。用户可以通过最少的配置为在线或离线评估设置LLM判定评估器。系统会收集关于评估器性能的人类反馈，然后将其存储为少量示例，以便于在未来的评估中使用。

这一自我改进循环包括以下四个关键步骤：

这种方法利用LLM的少量学习能力，创建愈发与人类偏好对齐的评估器，而无需进行大量的Prompt工程。

LangSmith的自我改进评估器代表了生成性AI系统评估方面的重大进展。通过整合人类反馈和利用少量学习，这些评估器能够适应以更好地反映人类偏好，从而减少手动调整的需求。随着AI技术的不断发展，这种自我改进系统将在确保AI输出有效达到人类标准方面起到关键作用。