AssemblyAI 提升讲话者辨识功能，支持新语言并提升准确度

NEW

AssemblyAI 提升讲话者辨识功能，支持新语言并提升准确度 - Blockchain.News

AssemblyAI 宣布对其讲话者辨识服务进行了重大升级，该服务旨在识别对话中的个别讲话者。根据该公司，改进后的服务提高了准确性并扩展了语言支持，使其对终端用户更加高效和多功能。

讲话者辨识改进

更新后的讲话者辨识模型相比其前身，现在可以提供高达 13% 的更高准确度。这些改进已经通过各种行业基准进行了测量，包括辨识错误率（DER）10.1% 的提高和串联最小置换单词错误率（cpWER）13.2% 的提高。这些指标在评估辨识模型性能时至关重要，数值越低表示准确度越高。

DER 衡量的是错误地将音频归给不正确讲话者的时间比例，而 cpWER 涉及语音识别模型错误的数量，包括由于不正确讲话者分配导致的错误。AssemblyAI 在这两个指标上的改进突显了其模型在准确识别讲话者方面的提升。

另一个重要的升级是讲话者数量错误减少了 85.4%。这一改进确保了模型能够更准确地确定音频文件中独特讲话者的数量。准确的讲话者数量对许多应用至关重要，如依赖于识别正确对话参与者数量的呼叫中心软件。

AssemblyAI 的模型现在在讲话者数量错误率方面达到了仅 2.9% 的最低水平，超越了行业内的其他多个提供商。

该服务还扩展了其语言支持，现在新增支持五种语言：中文、印地语、日语、韩语和越南语。这使得支持的语言总数达到 16 种，几乎涵盖了 AssemblyAI 最佳级别支持的所有语言。

讲话者辨识的改进源于一系列技术升级：

Universal-1 模型：新的语音识别模型 Universal-1 提高了转录准确性和时间戳预测，这对将讲话者标签与自动语音识别（ASR）输出对齐至关重要。
改进的嵌入模型：对讲话者嵌入模型的升级改进了模型识别和区分讲话者独特声学特征的能力。
增加的采样频率：输入采样频率从 8 kHz 提高到 16 kHz，提供了更高分辨率的输入数据，使模型能够更好地区分不同讲话者的声音。