AssemblyAI 推出增强版 PII 涂抹和实体检测功能

realtime news  Jul 26, 2024 14:17  UTC 06:17

1 Min Read

AssemblyAI 宣布对其 PII 涂抹和实体检测功能进行了重大升级,旨在增强数据安全性并从音频转录中提取关键见解。根据 AssemblyAI 的说法,最新更新包括对 47 种语言的 PII 文本涂抹支持,并为其实体检测模型增加了 16 种新实体类型,总数达到 44 种。

增强的 PII 涂抹能力

更新后的 PII 文本涂抹功能现在支持 47 种语言,确保在不同地区全面保护个人身份信息 (PII)。此升级允许用户识别和删除转录中的敏感数据,如地址、电话号码和信用卡信息。此外,用户可以生成删除 PII 的转录或使用该工具在音频文件中“屏蔽”敏感信息。

AssemblyAI 提供了如何使用 API 进行 PII 涂抹的示例:

import assemblyai as aai

aai.settings.api_key = "YOUR API KEY"

audio_url = "https://github.com/AssemblyAI-Community/audio-examples/raw/main/20230607_me_canadian_wildfires.mp3"

config = aai.TranscriptionConfig(speaker_labels=True).set_redact_pii(
  policies=[
    aai.PIIRedactionPolicy.person_name,
    aai.PIIRedactionPolicy.organization,
    aai.PIIRedactionPolicy.occupation,
  ],
  substitution=aai.PIISubstitutionPolicy.hash,
)

transcript = aai.Transcriber().transcribe(audio_url, config)

for utterance in transcript.utterances:
  print(f"Speaker {utterance.speaker}: {utterance.text}")
  
print(transcript.text)

用户可以参考 AssemblyAI 的文档,了解更多详细示例和对更新的深入探讨。

扩展的实体检测

实体检测模型已经升级,增加了 16 种新实体类型,可以在转录中自动识别和分类关键信息。这使支持的实体类型达到总数 44 种,包括姓名、组织、地址等。模型在主要语言中确保 99% 的准确性,使其成为从音频数据中提取有价值见解的强大工具。

API 实体检测使用示例:

import assemblyai as aai

aai.settings.api_key = "YOUR API KEY"

audio_url = "https://github.com/AssemblyAI-Community/audio-examples/raw/main/20230607_me_canadian_wildfires.mp3"

config = aai.TranscriptionConfig(entity_detection=True)

transcript = aai.Transcriber().transcribe(audio_url, config)

for entity in transcript.entities:
  print(entity.text)
  print(entity.entity_type)
  print(f"Timestamp: {entity.start} - {entity.end}\n")

其他资源

AssemblyAI 还分享了几篇新博客文章和教程,帮助用户充分利用其产品。主题包括使用 Claude 3.5 Sonnet 处理音频数据,了解微软的 Florence-2 图像模型,以及在 JavaScript 中使用 AssemblyAI 和 DeepL 创建实时语言翻译服务。

有关这些更新的更多信息和探索其他资源,请访问 AssemblyAI 的官方博客。



Read More