AssemblyAI 发布了其最新产品 Ruby SDK,旨在简化使用先进的语音 AI 模型的过程。据 AssemblyAI 称,这个新的 SDK 允许开发人员转录音频、利用音频智能模型并使用 LeMUR 将大型语言模型(LLMs)应用于他们的音频数据。
转录音频文件
Ruby SDK 提供了一种高效的方式来转录音频文件。用户可以通过简单的代码片段转录远程和本地音频文件。例如,要转录一个远程音频文件,用户可以使用以下代码:
require 'assemblyai'
client = AssemblyAI::Client.new(api_key: 'YOUR_API_KEY')
transcript = client.transcripts.transcribe(
audio_url: 'https://storage.googleapis.com/aai-docs-samples/nbc.mp3'
)
abort transcript.error if transcript.status == AssemblyAI::Transcripts::TranscriptStatus::ERROR
puts transcript.text
同样,本地文件可以通过先上传文件然后处理来转录:
uploaded_file = client.files.upload(file: '/path/to/your/file')
transcript = client.transcripts.transcribe(
audio_url: uploaded_file.upload_url
)
转录音频文件的详细说明请参见 AssemblyAI 文档。
使用 LeMUR 将 LLMs 应用于音频数据
Ruby SDK 还支持使用 LeMUR 将大型语言模型(LLMs)应用于音频数据。用户可以构建汇总转录内容或执行其他任务的应用程序:
response = client.lemur.task(
transcript_ids: [transcript.id],
prompt: 'Summarize this transcript.'
)
puts response.response
有关使用音频数据的 LLMs 更多信息,请参阅 AssemblyAI 文档。
利用音频智能模型
Ruby SDK 的另一个关键特性是其使用音频智能模型的能力。这些模型可以分析音频文件的各种属性,例如情感分析:
transcript = client.transcripts.transcribe(
audio_url: 'https://storage.googleapis.com/aai-docs-samples/nbc.mp3',
sentiment_analysis: true
)
abort transcript.error if transcript.status == AssemblyAI::Transcripts::TranscriptStatus::ERROR
transcript.sentiment_analysis_results.each do |result|
puts result.text
puts result.sentiment
puts result.confidence
printf("%d - %d\n", start: result.start, end: result.end_)
end
关于音频智能模型的更多详细信息,请参见 AssemblyAI 文档。
开始使用 Ruby SDK
要开始使用 Ruby SDK,开发人员可以参考 安装说明 和 Ruby SDK GitHub 仓库的 README。对于任何问题或反馈,用户可以在 GitHub 仓库上 提交问题。
Image source: Shutterstock