深圳市大数据研究院开放性数据集

Huatuo-26M 数据集,以中国古代伟大的医生华佗命名,是目前最大的中文医疗问答数据集,含有2600万个问答对。这些问答对通过文本清洗和数据去重的方法,从多个来源精心收集而来,包括在线医疗咨询网站、医学百科全书和医学知识库,覆盖了广泛的医疗知识。该数据集的创建显著扩大了医疗领域问答数据集的规模,并为中文医疗领域的自然语言处理和人工智能研究提供了一个前所未有的资源。

Huatuo-26M的推出不仅纪念了华佗的贡献,也为医疗大模型的发展提供了强有力的支持。通过提供大量真实且多样化的医疗问答对,它有助于提高医疗问答系统的性能,加强模型的理解能力和生成能力。此外,该数据集在多种应用中展示了其价值,包括零样本学习、检索增强生成,以及作为预训练语料来提升预训练语言模型的性能,从而为研究人员和开发者在构建更高效、更准确的医疗咨询和辅助诊断系统方面提供了宝贵的资源。Huatuo-26M对现有模型提出了挑战,同时对医疗研究和医疗保健中的AI开发做出了重要贡献。

数据集元信息

任务类型 语言 train val test 文件格式 存储大小
QA 中文 26,239,047 - 264,041 .jsonl 5.3GB

数据集统计信息

数据示例

huatuo_encyclopedia_qa数据示例

      
        ```python3
        {
        'question': [ [ "曲匹地尔片的用法用量" ] ],
        'answer': [ "注意:同种药品可由于不同的包装规格有不同的用法或用量。本文只供参考。如果不确定,请参看药品随带的说明书或向医生询问。口服。一次50~100mg(1-2片),3次/日,或遵医嘱。" ]
        }
        ```
      
    

huatuo_knowledge_graph_qa 数据示例

      
        ```python3
        {
        ‘question’: [ "颜面部凹陷的手术治疗有些什么?" ],
        ‘answer’: [ "自体颗粒脂肪移植;自体脂肪移植;自体脂肪干细胞移植;自体脂肪颗粒移植" ]
        }
        ```
      
    

hhuatuo_consultation_qa 数据示例

      
        ```text
        {
        'question': [ "你好!请问睡觉睡到半夜总是口干舌干的、影响休息、是..." ],
        'answer': [ "https://www.51zyzy.com/question/detail/10391424.html" ]
        }
        ```
      
    

Huatuo-Lite 数据示例

      
        ```text
        {
        'id': 22,647,835,
        'answer': '治疗鼻中隔偏曲的方法有手术和非手术治疗两种,手术治疗是通过手术矫正鼻中隔偏曲,非手术治疗则是通过药物治疗和物理治疗来缓解症状。手术治疗是治疗鼻中隔偏曲的最有效方法,手术后需要注意休息,避免剧烈运动和低头工作,同时也要注意饮食,少吃辛辣食物和不喝酒。手术后两周内鼻涕或痰中出现血水或血块是正常现象,若出现大量出血、发烧、剧烈疼痛时请尽速就医。',
        'score': 5,
        'label': '眼耳鼻喉科',
        'question': '上个月感冒了,也没有用药,感冒好了以后就觉得鼻子经常不通畅,鼻子还经常晦气红皮、发痒、而且还会有头晕,一直都以为是上次感冒留下的后遗症,去医院检查,检查结果出来以后说是鼻中隔偏曲。请问如何治疗鼻中隔偏曲?',
        'related_diseases': '鼻中隔偏曲'
        }
        ```
      
    

文件结构

Huatuo-26M 数据集主要包括:

这四个部分,每个部分的文件结构如下:

      
        ```text
        # huatuo_encyclopedia_qa
        .
        ├── train_datasets.jsonl
        ├── validation_datasets.jsonl
        └── test_datasets,jsonl
        
        # huatuo_knowledge_graph_qa
        .
        ├── train_datasets.jsonl
        ├── validation_datasets.jsonl
        └── test_datasets,jsonl
        
        # huatuo_consultation_qa
        .
        ├── train_datasets.jsonl
        ├── validation_datasets.jsonl
        └── test_datasets,jsonl
        
        # Huatuo-Lite
        . format_data.jsonl
        ```
      
    

成果

文章
Li J, Wang X, Wu X, et al. Huatuo-26m, a large-scale chinese medical qa dataset[J]. arXiv preprint arXiv:2305.01526, 2023.

相关链接