在最近的一次更新中,LangChain 宣布发布 LangSmith SDKs 的 0.2 版本,旨在提升开发者在评估应用程序时的体验。根据LangChain的说法,此次发布引入了几个关键改进,包括简化评估方法的使用、性能提升和文档扩展。
简化的评估方法
此更新简化了evaluate()
和aevaluate()
方法的使用。开发者现在可以使用更简单的评估器,这允许函数直接对应用程序输出进行评分,而不需要复杂的参数结构。这种改变适用于 Python 和 TypeScript SDK,以简化开发者的流程。
此外,SDK 现在支持对langgraph
和langchain
对象的直接评估,进一步简化了评估过程。此功能允许开发者直接将这些对象传递到评估方法中,减少评估应用程序性能所需的步骤。
合并评估函数
在新版本中,LangSmith 合并了其评估方法,将其减少为一个单一的evaluate()
方法。此方法现在囊括了之前分散于多个方法中的功能,使开发者更易于在数据集上运行应用程序、评估现有结果并进行比较评估。
本地评估和性能改进
LangSmith SDK v0.2 引入了一个测试功能,允许在本地运行评估而不上传结果。这对希望快速测试提示或验证功能而不记录评估的开发者特别有利。然而,此功能目前仅在 Python SDK 中支持。
此次更新还包括对 Python SDK 性能的改善,在处理大型案例时,aevaluate()
速度提升约30%,显著提高了评估过程的效率。
重新设计的文档
LangSmith 团队对文档进行了大规模的重写,以便与最新更新保持一致,并引入了新的评估指南。此次重新设计包括一个整合的 Python SDK API 参考,旨在为开发者提供全面和易于访问的资源。
Python SDK 的重大变化
这次更新在 Python SDK 中引入了一些重大变化,包括对默认并发设置和数据集识别过程的修改。此外,随着 2024 年 10 月 Python 3.8 的生命终止,官方也不再支持该版本。
LangSmith SDK v0.2 通过简化评估流程、提升性能和提供更好的文档,为开发者提供了更简化和高效的体验,使其成为 Python 和 TypeScript 环境中软件开发的宝贵工具。
Image source: Shutterstock