CUHK-LAH! 多模态信号数据库是一个专为说话人分离任务设计的数据集,它收录了不同说话人在阅读书籍、朗读新闻以及模拟对话等多种情境下的语音数据。该数据库涵盖了中英双语的人脸音视频资料,并且是在多种不同的环境下,通过多台电脑摄像头和麦克风设备进行录制,总共包含了105.38小时的数据。
数据集元信息
任务信息 |
文件格式 |
存储大小 |
说话人分离 |
.avi (25视频帧率, 16000音频采样率) |
25G |
数据集录制环境
数据集统计信息
Version |
Dataset |
Language |
Description |
Speaker Num |
Total hour |
2022-11 |
CUHK-LAH! |
英文 |
- 在静音室内录制
- 每人30分钟
- 说话内容为阅读书籍和新闻
- 用外置摄像头,close-talk麦克风和far-field麦克风录制
|
52 (24F+28M) |
35.72h |
2023-05 |
CUHK-LAHw! |
中文 |
- 在实验室,会议室,茶水间录制
- 每人20分钟
- 说话内容为读新闻、介绍书籍、模拟对话
- 用电脑自带摄像头和麦克风录制
|
53(25F+28M) |
35.26h |
2023-09 |
CUHK-LAHw! |
中文 |
- 设置同上
- 说话人讲话时头部左右方向
- 增加说话人不说话场景: 15mins talk + 5 mins silence
|
50(39F+11M) |
34.44h(其中7.68静音数据) |
文件结构
CUHKLah
├── v1
│ ├── s01
│ │ ├── 0_0.avi
│ │ ├── 0_1.avi
│ │ ├── 0_2.avi
│ │ ├── …
├── v2
│ ├── …
├── v3
│ ├── silence
│ │ ├── s02
│ │ │ ├── 0_0.avi
│ │ │ ├── …
│ ├── speech
│ │ ├── s01
│ │ │ ├── 0_0.avi