深圳市大数据研究院开放性数据集

CUHK-LAH! 多模态信号数据库是一个专为说话人分离任务设计的数据集,它收录了不同说话人在阅读书籍、朗读新闻以及模拟对话等多种情境下的语音数据。该数据库涵盖了中英双语的人脸音视频资料,并且是在多种不同的环境下,通过多台电脑摄像头和麦克风设备进行录制,总共包含了105.38小时的数据。

数据集元信息

任务信息 文件格式 存储大小
说话人分离 .avi (25视频帧率, 16000音频采样率) 25G

数据集录制环境

数据集统计信息

Version Dataset Language Description Speaker Num Total hour
2022-11 CUHK-LAH! 英文
  • 在静音室内录制
  • 每人30分钟
  • 说话内容为阅读书籍和新闻
  • 用外置摄像头,close-talk麦克风和far-field麦克风录制
52 (24F+28M) 35.72h
2023-05 CUHK-LAHw! 中文
  • 在实验室,会议室,茶水间录制
  • 每人20分钟
  • 说话内容为读新闻、介绍书籍、模拟对话
  • 用电脑自带摄像头和麦克风录制
53(25F+28M) 35.26h
2023-09 CUHK-LAHw! 中文
  • 设置同上
  • 说话人讲话时头部左右方向
  • 增加说话人不说话场景: 15mins talk + 5 mins silence
50(39F+11M) 34.44h(其中7.68静音数据)

文件结构

      
        CUHKLah
        ├── v1
        │   ├── s01
        │   │   ├── 0_0.avi
        │   │   ├── 0_1.avi
        │   │   ├── 0_2.avi
        │   │   ├── …
        ├── v2
        │   ├── …
        ├── v3
        │   ├── silence
        │   │   ├── s02
        │   │   │   ├── 0_0.avi
        │   │   │   ├── …
        │   ├── speech
        │   │   ├── s01
        │   │   │   ├── 0_0.avi