选择适合构建的最佳语音转文字 API、人工智能模型或开源引擎可能具有挑战性。需要考虑的因素包括准确性、模型设计、功能、支持选项、文档和安全性。根据 AssemblyAI 的说法,本篇文章将分析市场上最佳的免费语音转文字 API 和人工智能模型,包括那些提供免费层的选项。
免费语音转文字 API 和人工智能模型
API 和人工智能模型通常比开源选项更准确且更容易集成。然而,大规模使用 API 和人工智能模型可能成本高昂。对于小型项目或试用,许多语音转文字 API 和人工智能模型提供免费层,允许用户在一定量内使用服务。以下是三个流行的语音转文字 API 和人工智能模型,它们提供免费层:AssemblyAI,谷歌和 AWS Transcribe。
AssemblyAI
AssemblyAI 提供准确转录和理解语音的人工智能模型,使用户能够从语音数据中提取见解。它提供尖端的人工智能模型,如说话人分离、话题检测、实体检测、自动标点和大小写、内容审核、情感分析和文本摘要。AssemblyAI 几乎支持所有音频和视频文件格式,便于转录,并提供两种语音转文字选项:“Best”和“Nano”。公司还提供 50 美元的信用额度供用户使用。
定价
- 在 AI playground 免费测试,并在 API 注册时获得 50 美元信用额度
- 语音转文字 Best – 每小时 0.37 美元
- 语音转文字 Nano – 每小时 0.12 美元
- 流媒体语音转文字 – 每小时 0.47 美元
- 语音理解 – 根据情况不同
- 提供大宗定价
优点
- 高准确性
- 广泛的人工智能模型
- 持续的模型改进
- 对开发人员友好的文档和 SDK
- 按需付费和定制计划
- 严格的安全和隐私措施
缺点
- 模型不是开源的
谷歌
谷歌语音转文字 提供 60 分钟的免费转录和 300 美元的 Google Cloud 托管免费信用。然而,谷歌仅支持转录已经在 Google Cloud Bucket 中的文件,并且需要设置一个 Google Cloud Platform(GCP)账户和项目。
定价
- 60 分钟的免费转录
- 300 美元的 Google Cloud 托管免费信用
优点
- 免费层
- 不错的准确性
- 支持 125 多种语言
缺点
- 仅支持转录 Google Cloud Bucket 中的文件
- 初始设置可能比较复杂
- 比其他 API 准确性低
AWS Transcribe
AWS Transcribe 提供前 12 个月每月一小时的免费使用。与谷歌类似,需要一个 AWS 账户,并且文件必须在 Amazon S3 bucket 中。AWS Transcribe 还通过其 Transcribe Medical API 提供医学转录功能。
定价
- 前 12 个月每月一小时免费
- 基于使用量的分级定价,从 0.02400 美元到 0.00780 美元不等
优点
- 集成到 AWS 生态系统中
- 医学语言转录
- 不错的准确性
缺点
- 初始设置可能比较复杂
- 仅支持转录 Amazon S3 bucket 中的文件
- 比其他 API 准确性低
开源语音转录引擎
开源语音转文字库完全免费且没有使用限制。这些库可以提供更好的数据安全性,因为数据不需要发送到第三方。然而,在实现理想结果时,特别是大规模使用时,它们通常需要大量时间和精力。以下是一些值得注意的开源选项:
DeepSpeech
DeepSpeech 是一个开源嵌入式语音转文字引擎,设计用于在各种设备上实时运行。它提供不错的即开即用准确性,并且容易微调和训练自定义数据。
优点
- 易于定制
- 可以训练自定义模型
- 适用于多种设备
缺点
- 缺乏支持
- 除自定义训练外没有模型改进
- 集成到生产应用中复杂
Kaldi
Kaldi 是研究界的一个流行语音识别工具包。它提供良好的即开即用准确性,并支持自定义模型训练。Kaldi 被许多公司广泛用于生产。
优点
- 不错的准确性
- 支持自定义模型
- 活跃的用户群体
缺点
- 使用复杂且昂贵
- 使用命令行界面
- 集成到生产应用中复杂
Flashlight ASR(原 Wav2Letter)
Flashlight ASR 是 Facebook AI 研究的自动语音识别(ASR)工具包。它用 C++ 编写,并使用 ArrayFire 张量库。Flashlight ASR 是可定制的,对于开源选项来说提供不错的准确性。
优点
- 可定制
- 比其他开源选项更容易修改
- 处理速度快
缺点
- 使用非常复杂
- 没有预训练库
- 需要不断获取数据集进行训练
SpeechBrain
SpeechBrain 是一个基于 PyTorch 的转录工具包,与 Hugging Face 紧密集成,便于访问。平台定义明确并不断更新,使其成为培训和微调的简单工具。
优点
- 与 Pytorch 和 Hugging Face 集成
- 提供预训练模型
- 支持多个任务
缺点
- 预训练模型需要定制
- 缺乏详尽的文档
Coqui
Coqui 是一个用于语音转文字转录的深度学习工具包。它支持多种语言并提供基本的推理和生产特性。平台还发布自定义训练模型,并具有多个编程语言的绑定。
优点
- 生成转录的置信评分
- 有庞大的支持社区
- 提供预训练模型
缺点
- 不再由 Coqui 更新
- 除自定义训练外没有模型改进
- 集成到生产应用中复杂
Whisper
Whisper 是 OpenAI 于 2022 年 9 月发布的一个最先进的开源选项。它支持多语言转录,可以在 Python 中或通过命令行使用。Whisper 提供了五种不同大小和能力的模型。
优点
- 多语言转录
- 可以在 Python 中使用
- 五种可选型号
缺点
- 需要内部研究团队进行维护
- 运行成本高
- 集成到生产应用中复杂
哪种免费语音转文字 API、人工智能模型或开源引擎适合您的项目?
最佳免费语音转文字 API、人工智能模型或开源引擎取决于您的项目需求。如果优先考虑易用性、高准确性和附加功能,可以考虑 API。然而,如果您偏好没有数据限制的完全免费选项并且不介意额外工作,那么开源库可能更适合。确保所选解决方案能满足您当前和未来的项目需求。
Image source: Shutterstock