深圳市大数据研究院开放性数据集-CUHK-LAH!

深圳市大数据研究院开放性数据集

CUHK-LAH! 多模态信号数据库是一个专为说话人分离任务设计的数据集，它收录了不同说话人在阅读书籍、朗读新闻以及模拟对话等多种情境下的语音数据。该数据库涵盖了中英双语的人脸音视频资料，并且是在多种不同的环境下，通过多台电脑摄像头和麦克风设备进行录制，总共包含了105.38小时的数据。

数据集元信息

任务信息	文件格式	存储大小
说话人分离	.avi (25视频帧率, 16000音频采样率）	25G

数据集录制环境

数据集统计信息

Version	Dataset	Language	Description	Speaker Num	Total hour
2022-11	CUHK-LAH!	英文	在静音室内录制每人30分钟说话内容为阅读书籍和新闻用外置摄像头，close-talk麦克风和far-field麦克风录制	52 (24F+28M)	35.72h
2023-05	CUHK-LAHw!	中文	在实验室，会议室，茶水间录制每人20分钟说话内容为读新闻、介绍书籍、模拟对话用电脑自带摄像头和麦克风录制	53(25F+28M）	35.26h
2023-09	CUHK-LAHw!	中文	设置同上说话人讲话时头部左右方向增加说话人不说话场景: 15mins talk + 5 mins silence	50(39F+11M)	34.44h(其中7.68静音数据）

文件结构

      
        CUHKLah
        ├── v1
        │   ├── s01
        │   │   ├── 0_0.avi
        │   │   ├── 0_1.avi
        │   │   ├── 0_2.avi
        │   │   ├── …
        ├── v2
        │   ├── …
        ├── v3
        │   ├── silence
        │   │   ├── s02
        │   │   │   ├── 0_0.avi
        │   │   │   ├── …
        │   ├── speech
        │   │   ├── s01
        │   │   │   ├── 0_0.avi