最佳免费语音转文字 API 和开源引擎：全面比较

realtime news Aug 23, 2024 22:34 UTC 14:34

1 Min Read

选择适合构建的最佳语音转文字 API、人工智能模型或开源引擎可能具有挑战性。需要考虑的因素包括准确性、模型设计、功能、支持选项、文档和安全性。根据 AssemblyAI 的说法，本篇文章将分析市场上最佳的免费语音转文字 API 和人工智能模型，包括那些提供免费层的选项。

免费语音转文字 API 和人工智能模型

API 和人工智能模型通常比开源选项更准确且更容易集成。然而，大规模使用 API 和人工智能模型可能成本高昂。对于小型项目或试用，许多语音转文字 API 和人工智能模型提供免费层，允许用户在一定量内使用服务。以下是三个流行的语音转文字 API 和人工智能模型，它们提供免费层：AssemblyAI，谷歌和 AWS Transcribe。

AssemblyAI

AssemblyAI 提供准确转录和理解语音的人工智能模型，使用户能够从语音数据中提取见解。它提供尖端的人工智能模型，如说话人分离、话题检测、实体检测、自动标点和大小写、内容审核、情感分析和文本摘要。AssemblyAI 几乎支持所有音频和视频文件格式，便于转录，并提供两种语音转文字选项：“Best”和“Nano”。公司还提供 50 美元的信用额度供用户使用。

定价

在 AI playground 免费测试，并在 API 注册时获得 50 美元信用额度
语音转文字 Best – 每小时 0.37 美元
语音转文字 Nano – 每小时 0.12 美元
流媒体语音转文字 – 每小时 0.47 美元
语音理解 – 根据情况不同
提供大宗定价

优点

高准确性
广泛的人工智能模型
持续的模型改进
对开发人员友好的文档和 SDK
按需付费和定制计划
严格的安全和隐私措施

缺点

模型不是开源的

谷歌

谷歌语音转文字提供 60 分钟的免费转录和 300 美元的 Google Cloud 托管免费信用。然而，谷歌仅支持转录已经在 Google Cloud Bucket 中的文件，并且需要设置一个 Google Cloud Platform（GCP）账户和项目。

定价

60 分钟的免费转录
300 美元的 Google Cloud 托管免费信用

优点

免费层
不错的准确性
支持 125 多种语言

缺点

仅支持转录 Google Cloud Bucket 中的文件
初始设置可能比较复杂
比其他 API 准确性低

AWS Transcribe

AWS Transcribe 提供前 12 个月每月一小时的免费使用。与谷歌类似，需要一个 AWS 账户，并且文件必须在 Amazon S3 bucket 中。AWS Transcribe 还通过其 Transcribe Medical API 提供医学转录功能。

定价

前 12 个月每月一小时免费
基于使用量的分级定价，从 0.02400 美元到 0.00780 美元不等

优点

集成到 AWS 生态系统中
医学语言转录
不错的准确性

缺点

初始设置可能比较复杂
仅支持转录 Amazon S3 bucket 中的文件
比其他 API 准确性低

开源语音转录引擎

开源语音转文字库完全免费且没有使用限制。这些库可以提供更好的数据安全性，因为数据不需要发送到第三方。然而，在实现理想结果时，特别是大规模使用时，它们通常需要大量时间和精力。以下是一些值得注意的开源选项：

DeepSpeech

DeepSpeech 是一个开源嵌入式语音转文字引擎，设计用于在各种设备上实时运行。它提供不错的即开即用准确性，并且容易微调和训练自定义数据。

优点

易于定制
可以训练自定义模型
适用于多种设备

缺点

缺乏支持
除自定义训练外没有模型改进
集成到生产应用中复杂

Kaldi

Kaldi 是研究界的一个流行语音识别工具包。它提供良好的即开即用准确性，并支持自定义模型训练。Kaldi 被许多公司广泛用于生产。

优点

不错的准确性
支持自定义模型
活跃的用户群体

缺点

使用复杂且昂贵
使用命令行界面
集成到生产应用中复杂

Flashlight ASR（原 Wav2Letter）

Flashlight ASR 是 Facebook AI 研究的自动语音识别（ASR）工具包。它用 C++ 编写，并使用 ArrayFire 张量库。Flashlight ASR 是可定制的，对于开源选项来说提供不错的准确性。

优点

可定制
比其他开源选项更容易修改
处理速度快

缺点

使用非常复杂
没有预训练库
需要不断获取数据集进行训练

SpeechBrain

SpeechBrain 是一个基于 PyTorch 的转录工具包，与 Hugging Face 紧密集成，便于访问。平台定义明确并不断更新，使其成为培训和微调的简单工具。

优点

与 Pytorch 和 Hugging Face 集成
提供预训练模型
支持多个任务

缺点

预训练模型需要定制
缺乏详尽的文档

Coqui

Coqui 是一个用于语音转文字转录的深度学习工具包。它支持多种语言并提供基本的推理和生产特性。平台还发布自定义训练模型，并具有多个编程语言的绑定。

优点

生成转录的置信评分
有庞大的支持社区
提供预训练模型

缺点

不再由 Coqui 更新
除自定义训练外没有模型改进
集成到生产应用中复杂

Whisper

Whisper 是 OpenAI 于 2022 年 9 月发布的一个最先进的开源选项。它支持多语言转录，可以在 Python 中或通过命令行使用。Whisper 提供了五种不同大小和能力的模型。

优点

多语言转录
可以在 Python 中使用
五种可选型号

缺点

需要内部研究团队进行维护
运行成本高
集成到生产应用中复杂

哪种免费语音转文字 API、人工智能模型或开源引擎适合您的项目？

最佳免费语音转文字 API、人工智能模型或开源引擎取决于您的项目需求。如果优先考虑易用性、高准确性和附加功能，可以考虑 API。然而，如果您偏好没有数据限制的完全免费选项并且不介意额外工作，那么开源库可能更适合。确保所选解决方案能满足您当前和未来的项目需求。

最佳免费语音转文字 API 和开源引擎：全面比较

免费语音转文字 API 和人工智能模型

AssemblyAI

定价

优点

缺点

谷歌

定价

优点

缺点

AWS Transcribe

定价

优点

缺点

开源语音转录引擎

DeepSpeech

优点

缺点

Kaldi

优点

缺点

Flashlight ASR（原 Wav2Letter）

优点

缺点

SpeechBrain

优点

缺点

Coqui

优点

缺点

Whisper

优点

缺点

哪种免费语音转文字 API、人工智能模型或开源引擎适合您的项目？

Read More

Switzerland Pioneers Open Source Software and Digital Sovereignty Initiatives

Top Free Speech-to-Text APIs and Open Source Engines: A Comprehensive Comparison

Key Tests Confirming Human-Level Artificial General Intelligence (AGI)

Hong Kong Monetary Authority Warns of Fraudulent Website and Phishing Emails Linked to Public Bank (Hong Kong) Limited

HKMA Warns Public About Fraudulent Websites and Phishing Messages Related to Mox Bank