2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛数据发布啦!

发布时间: 2019-09-10
浏览次数: 1,137次

          2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛(以下简称“大赛”)将于2019年5月至11月举行。
       自然语言处理作为人工智能技术中重要的一个研究领域,近年来得到了快速发展,新模型和新方法层出不穷。为了促进中文自然语言技术的发展,中国人工智能学会特此主办本次自然语言处理技术大赛。为从事中文自然语言处理研究的研究人员、产业界从业人员以及AI技术爱好者提供一个良好的沟通平台。
       现将2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛的数据介绍如下:
 (1)数据总体概况
数据共分为四部分:知识图谱数据、每个实体的百科页面内容、历史知识问答的开发集。
链接:
https://pan.baidu.com/s/1ziSMMx9eeKl7TGJIvgiOPg 提取码: 9u6j
数据加密密码:报名成功后发送到负责人邮箱
(2)知识图谱数据
a. 历史概念树
历史概念树为手工构建,共678个概念节点,下图为“世界历史”概念的树状关系。详细的概念树见文件,共提供了OWL和txt两种格式的概念树存储方式。


       

数据地址:网盘/CAAI2019history_data/kg_info/history-tree.zip
b. 实体结构化信息
每一个实体的结构化信息为一条json数据,示例如下:

各字段详见下表:

数据地址:网盘/CAAI2019history_data/kg_info/history-kg-all.zip

(3)实体百科页面
实体的百科页面内容为html格式(每个文件以实体id号命名),具体如下:

数据地址:数据地址:网盘/CAAI2019history_data/web_txt/

(4)历史知识问答的开发集
Key为‘问题’和‘答案’,示例如下:
 {"问题": "拜占庭帝国灭亡的时间是________年。", "答案": "1453"}
 一行一条json数据
数据地址:数据地址:网盘/CAAI2019history_data/历史知识问答开发集Json.zip