🔔
🎄
🎁
🦌
🛷
NEW
通过AssemblyAI的Universal-1增强的Python音频转录 - Blockchain.News

通过AssemblyAI的Universal-1增强的Python音频转录

realtime news Nov 25, 2024 18:26

了解如何使用AssemblyAI的Universal-1通过Python转录音频文件,该模型提供接近人类的准确性和多个定价层,满足多样化需求。

通过AssemblyAI的Universal-1增强的Python音频转录

AssemblyAI推出了最新的语音识别模型Universal-1,为自动语音识别(ASR)准确性设定了新的标杆。该模型旨在即使在有口音、背景噪音和复杂短语的困难音频环境中也能实现接近人类的转录准确性。根据AssemblyAI的说法,Universal-1模型现在可以通过与之前的ASR模型相同的Web API访问。

Universal-1的新定价层

随着Universal-1的发布,AssemblyAI推出了两种新的定价层:Best和Nano。Best层经过优化以实现最大准确性,而Nano层则提供了一种经济高效的解决方案,支持99种不同语言的转录。这种灵活性允许开发人员根据其特定需求选择准确性和成本之间的合适平衡。

开始使用AssemblyAI Python SDK

为了简化转录过程,AssemblyAI提供了一个官方Python SDK。开发人员可以使用以下命令轻松安装SDK:

pip install --upgrade assemblyai

安装后,用户需要注册一个AssemblyAI账户以获取API密钥,该密钥在Python脚本中授权API调用时必要。

使用Universal-1转录音频文件

设置完成后,开发人员可以通过创建Python脚本转录音频文件。默认情况下,SDK使用Best层进行转录,以确保最高的准确性。该过程涉及导入SDK、使用API密钥配置API客户端,以及指定音频文件的URL或本地路径。

import assemblyai as aai

aai.settings.api_key = "YOUR_API_KEY"
transcriber = aai.Transcriber()
audio_file = "https://storage.googleapis.com/aai-web-samples/5_common_sports_injuries.mp3"
transcript = transcriber.transcribe(audio_file)

if transcript.error:
    print(transcript.error)
else:
    print(transcript.text)

运行脚本将在终端输出转录结果,显示模型的惊人能力。

探索Nano层

对于那些寻求更经济选择的人,切换到Nano层很简单。开发人员可以通过将speech_model参数设置为"nano"来调整TranscriptionConfig对象以利用Nano模型。

config = aai.TranscriptionConfig(speech_model="nano")
transcriber = aai.Transcriber(config=config)
transcript = transcriber.transcribe(audio_file)

这种灵活性允许在利用AssemblyAI强大的转录功能的同时有效利用资源。

超越转录:附加功能

AssemblyAI的产品不仅限于基本转录。该平台提供先进功能,如实体检测、内容审核、PII删除以及对音频数据应用大型语言模型(LLM)。这些功能增强了转录服务的实用性,使其适用于广泛的应用场景。

有兴趣利用这些功能的开发人员可以查阅AssemblyAI的文档和研究资源,以获得构建高级语音AI解决方案的进一步见解。

Image source: Shutterstock