阿拉伯语数据集

Casablanca

论文:https://anthropology/2024.emnlp-main.1211.pdf

优势:全人工标注(最大的全监督阿拉伯方言数据集)

  • 时长:48h

  • 方言:8种(ALG, EGY, JOR, MOR, UAE, PAL, MAU, YEM),8个标签

  • Segmentation:全人工标注

  • Transcription:全人工标注

  • code-switching :英文、法文(加音译)

QASR

论文:https://arxiv.org/abs/2106.13000

  • 时长:2000h 新闻频道

  • lightly supervised transcriptions(训练集中文本为转录的文本,不完全准确,并非人工标注)

  • 采样率:16kHz

  • 包含语言学驱动的分段(linguistically motivated segmentation)、标点符号(punctuation)、说话者信息(speaker information among others)


阿拉伯语数据集
http://example.com/2025/01/19/阿拉伯语数据集/
作者
Yujie Tu
发布于
2025年1月19日
许可协议