阿拉伯语数据集
Casablanca
论文:https://anthropology/2024.emnlp-main.1211.pdf
优势:全人工标注(最大的全监督阿拉伯方言数据集)
时长:48h
方言:8种(ALG, EGY, JOR, MOR, UAE, PAL, MAU, YEM),8个标签
Segmentation:全人工标注
Transcription:全人工标注
code-switching :英文、法文(加音译)
QASR
论文:https://arxiv.org/abs/2106.13000
时长:2000h 新闻频道
lightly supervised transcriptions(训练集中文本为转录的文本,不完全准确,并非人工标注)
采样率:16kHz
包含语言学驱动的分段(linguistically motivated segmentation)、标点符号(punctuation)、说话者信息(speaker information among others)
阿拉伯语数据集
http://example.com/2025/01/19/阿拉伯语数据集/