Jockey:利用 Twelve Labs API 和 LangGraph 进行高级视频处理

realtime news  Jul 04, 2024 12:50  UTC 04:50

1 Min Read

Jockey 是一个开源的会话视频代理,通过集成 Twelve Labs API 和 LangGraph 得到了显著增强。根据最近的 LangChain 博客文章,这种结合旨在提供更智能和更高效的视频处理能力。

Twelve Labs API 概述

Twelve Labs 提供了最先进的视频理解 API,能够从视频内容中直接提取丰富的洞察和信息。这些先进的视频基础模型(VFM)可以原生地处理视频,绕过了预生成字幕等中间表示形式。这使得视频内容能够获得更准确和上下文相关的理解,包括视觉、音频、屏幕文本和时间关系。

这些 API 支持多种功能,如视频搜索、分类、摘要和问答。它们可以集成到内容发现、视频编辑自动化、互动视频 FAQ 及 AI 生成的亮点集锦等应用中。具备企业级安全性和可扩展性的 Twelve Labs API 为视频驱动的应用开辟了新的可能性。

LangGraph v0.1 和 LangGraph Cloud 发布

LangChain 推出了 LangGraph v0.1,这是一个旨在构建具有增强控制和精密度的代理和多代理应用框架。与其前身 LangChain AgentExecutor 不同,LangGraph 提供了一个灵活的 API 用于自定义认知架构,使开发人员能够控制代码流、提示和 LLM 调用。它还通过内建的持久层支持人类与代理的协作,允许在人类批准任务之前执行任务,并在任务执行过程中进行“时间旅行”以便编辑和恢复代理行为。

为了补充该框架,LangChain 还推出了当前处于封闭测试中的 LangGraph Cloud 服务。该服务提供了可扩展的基础设施,用于部署 LangGraph 代理,管理水平扩展的服务器和任务队列,以处理大量并发用户并存储大规模状态。LangGraph Cloud 与 LangGraph Studio 集成,用于可视化和调试代理轨迹,促进开发人员快速迭代和反馈。

Jockey 如何利用 LangGraph 和 Twelve Labs API

在最新的 v1.1 版本中,Jockey 现在利用 LangGraph 提高了可扩展性和功能性。最初基于 LangChain 构建,Jockey 的新架构对复杂的视频工作流提供了更高效和精确的控制。这一转变标志着一个重要的进步,使视频处理任务的管理更加优化。

Jockey 通过 LangGraph 的灵活框架,将大型语言模型(LLM)与 Twelve Labs 的专业视频 API 结合起来。LangGraph UI中的节点复杂网络展示了 Jockey 的决策过程,包括主管、规划师、视频编辑、视频搜索和视频文本生成节点等组件。这种细化控制优化了令牌使用,并引导节点响应,提升了视频处理效率。

Jockey 的数据流图显示了信息在系统内从初始查询输入到复杂的视频处理步骤进行流转的过程。这包括从 Twelve Labs API 检索视频,按需对内容进行分段,并向用户展示最终结果。

Jockey 架构概述

Jockey 的架构设计用于通过一个多代理系统处理复杂的视频相关任务,包括主管、规划师和工人。主管作为中心协调器,在节点间路由任务并管理工作流。规划师为复杂请求创建详细的计划,工人则使用专业工具执行任务,例如视频搜索、文本生成和编辑。

这种架构使 Jockey 能够动态适应不同的查询,从简单的文本响应到复杂的视频操作任务。LangGraph 框架有助于在节点之间管理状态,优化令牌使用,并在视频处理工作流的每一步提供细化控制。

Jockey 的自定义

Jockey 的模块化设计便于定制和扩展。开发人员可以修改提示符,扩展状态以应对更复杂的场景,或者添加新的工人来应对特定的用例。这种灵活性使 Jockey 成为构建高级视频 AI 应用的多用途基础。

例如,开发人员可以创建指示 Jockey 从视频中识别特定场景的提示符,而无需更改核心系统。更大规模的自定义可以涉及修改提示符、扩展状态管理或添加新专业工人,以完成高级视频效果或生成任务。

结论

Jockey 代表了 LangGraph 代理框架与 Twelve Labs 视频理解 API 的强大结合,开启了智能视频处理和交互的新可能性。开发人员可以通过访问 Jockey GitHub 仓库 或查看 LangGraph 文档 来探索 Jockey 的功能。



Read More