AssemblyAI 宣布对其自动语言识别(ALD)模型进行了重大改进,承诺提高准确性并支持更广泛的语言范围。据 AssemblyAI 称,这些改进旨在帮助公司构建更强大和多语言的应用程序。
提高准确性和扩展语言支持
更新后的 ALD 模型现在支持17种语言,从之前的7种增加了中文、芬兰语和印地语等。AssemblyAI 声称,该模型在这17种语言中的15种语言中提供了最佳的准确性,在使用行业标准FLEURS基准进行比较时,优于四家领先的市场提供商。
这些改进预计将有助于广泛的应用程序,包括视频字幕、会议转录和播客处理。改进的准确性和扩展的语言支持确保多语言应用程序可以顺畅运行,而无需手动选择语言。
可定制的置信度阈值
除了提高准确性和扩展语言支持,AssemblyAI 还引入了可定制的置信度阈值。该功能允许开发人员设置语言识别的最低置信水平,确保只有高置信度的转录被处理。这些阈值可以根据特定的使用案例进行调整,例如为客户服务机器人等关键应用设置一个高阈值,或为初步内容分类设置一个较低的阈值。
例如,在一个多语言呼叫中心中,设置较高的语言识别置信度阈值可以确保呼叫使用正确的语言模型进行转录,保持客户互动的准确性。相反,对于较不关键的应用如初始内容分类,较低的阈值可以帮助捕捉更广泛的内容,引导进一步处理或手动审核。
准确性不言而喻
AssemblyAI 对其 ALD 模型进行了严格测试以验证其性能。结果表明,该模型在技术上具有优越性,并为应用带来了切实的好处:
- 单一 API:最佳层支持17种语言,Nano层支持99种语言,简化了多语言应用程序并缩短了开发时间。
- 可靠的转录:行业领先的语言识别准确性减少了故障排除的需求。
- 市场拓展:在多种语言中的一致表现促进了快速进入市场,而无需进行大量调整。
- 更好的用户体验:高准确性确保了所有支持语言中的卓越用户体验。
实际用例
这些改进设计成只需几行代码即可轻松集成到各种应用中。一些实际用例如下:
- 全球会议转录:准确记录多语言讨论,无需手动干预。
- 客户服务分析:通过精确的语言分类分析各地区的互动,支持准确的情感分析和趋势识别。
- 自适应语音助手:创建根据用户输入切换语言的助手,提高自然语言互动。
- 播客转录:构建能够准确转录和索引多语言内容的平台,增强可搜索性和可访问性。
这些场景突显了如何利用提高的准确性、扩展的语言支持和可定制的置信度阈值来构建处理多语言内容的强大、可扩展的解决方案。
立即开始
要了解更多关于 AssemblyAI 的 ALD 模型,请访问 官方文档。开发者可以通过获取 AssemblyAI 的免费 API 密钥开始使用该 API。
Image source: Shutterstock