AssemblyAI 发布用于增强音频处理的 Ruby SDK - Blockchain.News

AssemblyAI 发布用于增强音频处理的 Ruby SDK

realtime news Aug 13, 2024 05:09

AssemblyAI 发布了一个 Ruby SDK,使用户能够转录音频、使用音频智能模型并将大型语言模型(LLMs)应用于音频数据。

AssemblyAI 发布用于增强音频处理的 Ruby SDK

AssemblyAI 发布了其最新产品 Ruby SDK,旨在简化使用先进的语音 AI 模型的过程。据 AssemblyAI 称,这个新的 SDK 允许开发人员转录音频、利用音频智能模型并使用 LeMUR 将大型语言模型(LLMs)应用于他们的音频数据。

转录音频文件

Ruby SDK 提供了一种高效的方式来转录音频文件。用户可以通过简单的代码片段转录远程和本地音频文件。例如,要转录一个远程音频文件,用户可以使用以下代码:

require 'assemblyai'

client = AssemblyAI::Client.new(api_key: 'YOUR_API_KEY')

transcript = client.transcripts.transcribe(
  audio_url: 'https://storage.googleapis.com/aai-docs-samples/nbc.mp3'
)

abort transcript.error if transcript.status == AssemblyAI::Transcripts::TranscriptStatus::ERROR

puts transcript.text

同样,本地文件可以通过先上传文件然后处理来转录:

uploaded_file = client.files.upload(file: '/path/to/your/file')
transcript = client.transcripts.transcribe(
  audio_url: uploaded_file.upload_url
)

转录音频文件的详细说明请参见 AssemblyAI 文档

使用 LeMUR 将 LLMs 应用于音频数据

Ruby SDK 还支持使用 LeMUR 将大型语言模型(LLMs)应用于音频数据。用户可以构建汇总转录内容或执行其他任务的应用程序:

response = client.lemur.task(
  transcript_ids: [transcript.id],
  prompt: 'Summarize this transcript.'
)

puts response.response

有关使用音频数据的 LLMs 更多信息,请参阅 AssemblyAI 文档

利用音频智能模型

Ruby SDK 的另一个关键特性是其使用音频智能模型的能力。这些模型可以分析音频文件的各种属性,例如情感分析:

transcript = client.transcripts.transcribe(
  audio_url: 'https://storage.googleapis.com/aai-docs-samples/nbc.mp3',
  sentiment_analysis: true
)

abort transcript.error if transcript.status == AssemblyAI::Transcripts::TranscriptStatus::ERROR

transcript.sentiment_analysis_results.each do |result|
  puts result.text
  puts result.sentiment
  puts result.confidence
  printf("%d - %d\n", start: result.start, end: result.end_)
end

关于音频智能模型的更多详细信息,请参见 AssemblyAI 文档

开始使用 Ruby SDK

要开始使用 Ruby SDK,开发人员可以参考 安装说明Ruby SDK GitHub 仓库的 README。对于任何问题或反馈,用户可以在 GitHub 仓库上 提交问题

Image source: Shutterstock