AssemblyAI 宣布对其讲话者辨识服务进行了重大升级,该服务旨在识别对话中的个别讲话者。根据该公司,改进后的服务提高了准确性并扩展了语言支持,使其对终端用户更加高效和多功能。
讲话者辨识改进
更新后的讲话者辨识模型相比其前身,现在可以提供高达 13% 的更高准确度。这些改进已经通过各种行业基准进行了测量,包括辨识错误率(DER)10.1% 的提高和串联最小置换单词错误率(cpWER)13.2% 的提高。这些指标在评估辨识模型性能时至关重要,数值越低表示准确度越高。
DER 衡量的是错误地将音频归给不正确讲话者的时间比例,而 cpWER 涉及语音识别模型错误的数量,包括由于不正确讲话者分配导致的错误。AssemblyAI 在这两个指标上的改进突显了其模型在准确识别讲话者方面的提升。
讲话者数量准确度
另一个重要的升级是讲话者数量错误减少了 85.4%。这一改进确保了模型能够更准确地确定音频文件中独特讲话者的数量。准确的讲话者数量对许多应用至关重要,如依赖于识别正确对话参与者数量的呼叫中心软件。
AssemblyAI 的模型现在在讲话者数量错误率方面达到了仅 2.9% 的最低水平,超越了行业内的其他多个提供商。
增加的语言支持
该服务还扩展了其语言支持,现在新增支持五种语言:中文、印地语、日语、韩语和越南语。这使得支持的语言总数达到 16 种,几乎涵盖了 AssemblyAI 最佳级别支持的所有语言。
技术进步
讲话者辨识的改进源于一系列技术升级:
- Universal-1 模型:新的语音识别模型 Universal-1 提高了转录准确性和时间戳预测,这对将讲话者标签与自动语音识别(ASR)输出对齐至关重要。
- 改进的嵌入模型:对讲话者嵌入模型的升级改进了模型识别和区分讲话者独特声学特征的能力。
- 增加的采样频率:输入采样频率从 8 kHz 提高到 16 kHz,提供了更高分辨率的输入数据,使模型能够更好地区分不同讲话者的声音。
使用案例和应用
讲话者辨识是各行各业应用的关键特性:
转换文本的可读性
随着远程工作和录制会议的兴起,准确和易读的文本转换比以往任何时候都更重要。辨识功能改进了这些文本的可读性,使用户更容易理解内容。
搜索体验
许多对话智能产品提供搜索功能,允许用户找到特定人物说了特定内容的实例。准确的辨识对于这些功能正常运作至关重要。
下游分析和大语言模型(LLM)
许多分析特性和大语言模型依赖于知道谁说了什么,以从录音中提取有意义的信息。这对于像客户服务软件这样的应用至关重要,能利用讲话者信息进行培训和提升代理表现。
创作者工具特性
准确的转录和辨识是视频处理和内容创作中各种人工智能驱动特性的基础,例如自动配音、自动讲话者聚焦和从长内容中自动推荐短片段。
欲了解更多详细信息,可以访问官方AssemblyAI 博客。
Image source: Shutterstock