AssemblyAI 推出增强版 PII 涂抹和实体检测功能

realtime news Jul 26, 2024 14:17 UTC 06:17

1 Min Read

AssemblyAI 宣布对其 PII 涂抹和实体检测功能进行了重大升级，旨在增强数据安全性并从音频转录中提取关键见解。根据 AssemblyAI 的说法，最新更新包括对 47 种语言的 PII 文本涂抹支持，并为其实体检测模型增加了 16 种新实体类型，总数达到 44 种。

增强的 PII 涂抹能力

更新后的 PII 文本涂抹功能现在支持 47 种语言，确保在不同地区全面保护个人身份信息 (PII)。此升级允许用户识别和删除转录中的敏感数据，如地址、电话号码和信用卡信息。此外，用户可以生成删除 PII 的转录或使用该工具在音频文件中“屏蔽”敏感信息。

AssemblyAI 提供了如何使用 API 进行 PII 涂抹的示例：

import assemblyai as aai

aai.settings.api_key = "YOUR API KEY"

audio_url = "https://github.com/AssemblyAI-Community/audio-examples/raw/main/20230607_me_canadian_wildfires.mp3"

config = aai.TranscriptionConfig(speaker_labels=True).set_redact_pii(
  policies=[
    aai.PIIRedactionPolicy.person_name,
    aai.PIIRedactionPolicy.organization,
    aai.PIIRedactionPolicy.occupation,
  ],
  substitution=aai.PIISubstitutionPolicy.hash,
)

transcript = aai.Transcriber().transcribe(audio_url, config)

for utterance in transcript.utterances:
  print(f"Speaker {utterance.speaker}: {utterance.text}")
  
print(transcript.text)

用户可以参考 AssemblyAI 的文档，了解更多详细示例和对更新的深入探讨。

扩展的实体检测

实体检测模型已经升级，增加了 16 种新实体类型，可以在转录中自动识别和分类关键信息。这使支持的实体类型达到总数 44 种，包括姓名、组织、地址等。模型在主要语言中确保 99% 的准确性，使其成为从音频数据中提取有价值见解的强大工具。

API 实体检测使用示例：

import assemblyai as aai

aai.settings.api_key = "YOUR API KEY"

audio_url = "https://github.com/AssemblyAI-Community/audio-examples/raw/main/20230607_me_canadian_wildfires.mp3"

config = aai.TranscriptionConfig(entity_detection=True)

transcript = aai.Transcriber().transcribe(audio_url, config)

for entity in transcript.entities:
  print(entity.text)
  print(entity.entity_type)
  print(f"Timestamp: {entity.start} - {entity.end}\n")

其他资源

AssemblyAI 还分享了几篇新博客文章和教程，帮助用户充分利用其产品。主题包括使用 Claude 3.5 Sonnet 处理音频数据，了解微软的 Florence-2 图像模型，以及在 JavaScript 中使用 AssemblyAI 和 DeepL 创建实时语言翻译服务。

有关这些更新的更多信息和探索其他资源，请访问 AssemblyAI 的官方博客。

News ▸

AssemblyAI 推出增强版 PII 涂抹和实体检测功能

增强的 PII 涂抹能力

扩展的实体检测

其他资源

Read More

Pantera Capital Invests in aPriori, Enhancing Digital Manufacturing Solutions

AssemblyAI Unveils Enhanced PII Redaction and Entity Detection Features

Ethereum.org Translatathon Returns with $30,000 Prize Pool

Anthropic Voices Concerns Over SB 1047

Meta Llama Boosts Conversational Abilities of AI Study Buddy on WhatsApp and Messenger