FunASR/docs/m2met2_cn/简介.md
2023-04-25 17:23:12 +08:00

3.3 KiB
Raw Blame History

简介

竞赛介绍

语音识别Automatic Speech Recognition、说话人日志Speaker Diarization等语音处理技术的最新发展激发了众多智能语音的广泛应用。然而会议场景由于其复杂的声学条件和不同的讲话风格包括重叠的讲话、不同数量的发言者、大会议室的远场信号以及环境噪声和混响仍然属于一项极具挑战性的任务。

为了推动会议场景语音识别的发展,已经有很多相关的挑战赛,如 Rich Transcription evaluation 和 CHIMEComputational Hearing in Multisource Environments 挑战赛。最新的CHIME挑战赛关注于远距离自动语音识别和开发能在各种不同拓扑结构的阵列和应用场景中通用的系统。然而不同语言之间的差异限制了非英语会议转录的进展。MISPMultimodal Information Based Speech Processing和M2MeTMulti-Channel Multi-Party Meeting Transcription挑战赛为推动普通话会议场景语音识别做出了贡献。MISP挑战赛侧重于用视听多模态的方法解决日常家庭环境中的远距离多麦克风信号处理问题而M2MeT挑战则侧重于解决离线会议室中会议转录的语音重叠问题。

ASSP2022 M2MeT挑战的侧重点是会议场景它包括两个赛道说话人日记和多说话人自动语音识别。前者涉及识别“谁在什么时候说了话”而后者旨在同时识别来自多个说话人的语音语音重叠和各种噪声带来了巨大的技术困难。

在上一届M2MET成功举办的基础上我们将在ASRU2023上继续举办M2MET2.0挑战赛。在上一届M2MET挑战赛中评估指标是说话人无关的我们只能得到识别文本而不能确定相应的说话人。 为了解决这一局限性并将现在的多说话人语音识别系统推向实用化M2MET2.0挑战赛将在说话人相关的人物上评估并且同时设立限定数据与不限定数据两个子赛道。通过将语音归属于特定的说话人这项任务旨在提高多说话人ASR系统在真实世界环境中的准确性和适用性。 我们对数据集、规则、基线系统和评估方法进行了详细介绍以进一步促进多说话人语音识别领域研究的发展。此外我们将根据时间表发布一个全新的测试集包括大约10小时的音频。

时间安排(AOE时间)

  • 2023.4.29: 开放注册
  • 2023.5.8: 基线发布
  • 2023.5.15: 注册截止
  • 2023.6.9: 测试集数据发布
  • 2023.6.13: 最终结果提交截止
  • 2023.6.19: 评估结果和排名发布
  • 2023.7.3: 论文提交截止
  • 2023.7.10: 最终版论文提交截止
  • 2023.12.12: ASRU Workshop & challenge session

竞赛报名

来自学术界和工业界的有意向参赛者均应在2023年5月15日及之前填写下方的谷歌表单

M2MET2.0报名

主办方将在3个工作日内通过电子邮件通知符合条件的参赛团队团队必须遵守将在挑战网站上发布的挑战规则。在排名发布之前每个参赛者必须提交一份系统描述文件详细说明使用的方法和模型。主办方将选择前三名纳入ASRU2023论文集。