LangChain推出用于LLM判定的自我改进评估器

realtime news  Jun 27, 2024 22:11  UTC 14:11

1 Min Read

LangChain推出了一项革命性的解决方案,通过引入用于LLM判定系统的自我改进评估器,提高AI生成输出的准确性和相关性。据LangChain博客介绍,这项创新旨在使机器学习模型输出更接近人类的偏好。

LLM判定系统

评估大型语言模型(LLM)输出是一项复杂的任务,尤其是涉及生成性任务时,传统指标往往难以胜任。为了解决这一问题,LangChain开发了LLM判定方法,该方法利用一个单独的LLM对主模型的输出进行评分。尽管这种方法很有效,但它也引入了额外的Prompt工程需求,以确保评估器的性能。

LangSmith是LangChain的评估工具,现在包括了存储人类修正的自我改进评估器,作为少量示例。这些示例随后会被整合到未来的Prompt中,使评估器能够随着时间的推移不断改进。

激励研究

自我改进评估器的开发受到两项关键研究成果的影响。第一是少量学习的已建立效能,其中语言模型从少量示例中学习以复制所需行为。第二是一项来自伯克利的研究,题为《谁验证评估者?将LLM辅助评估与人类偏好对齐》,强调了将AI评估与人类判断对齐的重要性。

我们的解决方案:LangSmith中的自我改进评估

LangSmith的自我改进评估器旨在通过减少手动Prompt工程的需求,简化评估过程。用户可以通过最少的配置为在线或离线评估设置LLM判定评估器。系统会收集关于评估器性能的人类反馈,然后将其存储为少量示例,以便于在未来的评估中使用。

这一自我改进循环包括以下四个关键步骤:

  1. 初始设置:用户通过最少的配置设置LLM判定评估器。
  2. 反馈收集:评估器根据正确性和相关性等标准对LLM输出提供反馈。
  3. 人工修正:用户在LangSmith界面内直接审查并修正评估器的反馈。
  4. 反馈整合:系统将这些修正存储为少量示例,并在未来的评估Prompt中使用。

这种方法利用LLM的少量学习能力,创建愈发与人类偏好对齐的评估器,而无需进行大量的Prompt工程。

结论

LangSmith的自我改进评估器代表了生成性AI系统评估方面的重大进展。通过整合人类反馈和利用少量学习,这些评估器能够适应以更好地反映人类偏好,从而减少手动调整的需求。随着AI技术的不断发展,这种自我改进系统将在确保AI输出有效达到人类标准方面起到关键作用。



Read More