2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛数据发布啦!

发布时间: 2019-07-02
浏览次数: 900次

          2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛(以下简称“大赛”)将于2019年5月至11月举行。
       自然语言处理作为人工智能技术中重要的一个研究领域,近年来得到了快速发展,新模型和新方法层出不穷。为了促进中文自然语言技术的发展,中国人工智能学会特此主办本次自然语言处理技术大赛。为从事中文自然语言处理研究的研究人员、产业界从业人员以及AI技术爱好者提供一个良好的沟通平台。
       现将2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛的数据介绍如下:
        (1)数据总体概况
       数据共分为四部分:知识图谱数据、每个实体的百科页面内容、历史知识问答的开发集。
       链接:
https://pan.baidu.com/s/1ziSMMx9eeKl7TGJIvgiOPg 提取码: 9u6j
       数据加密密码:报名成功后发送到负责人邮箱
       (2)知识图谱数据
       a. 历史概念树
       历史概念树为手工构建,共678个概念节点,下图为“世界历史”概念的树状关系。详细的概念树见文件,共提供了OWL和txt两种格式的概念树存储方式。


       数据地址:网盘/CAAI2019history_data/kg_info/history-tree.zip
       b. 实体结构化信息
       每一个实体的结构化信息为一条json数据,示例如下:


{
"entity_id":" 61872",
"entity_name": "武则天(中国武周时期女皇帝)",
"entity_url": "
https://baike.baidu.com/item/%E6%AD%A6%E5%88%99%E5%A4%A9/61872",
"entity_sample_name": "武则天",
"view_number": 42939366,
"description": "武则天(624年-705年12月16日),本名珝,后改名曌(zhào),并州文水(今山西文水县东)人。中国历史上唯一的正统的女皇帝…",
"isa": "中国历史人物",
"tags": ["人物", "君主", "政治人物"],
"alias": ["武则天", "武媚", "武珝", "武后", "武媚娘"],
"relations": [
{"p": "信仰", "o": "佛教", "o_url": "
https://baike.baidu.com/item/%E4%BD%9B%E6%95%99/163332", "o_id": "163332"}
],
"attributes": [
{"p": "逝世时间", "o": "705年12月16日"},
{"p": "退位时间", "o": "公元705年"},
{"p": "谥号", "o": "则天大圣皇帝→则天大圣皇后"}
]
}
       各字段详见下表:
字段名称 字段类型 说明
entity_id string 实体的id号,作为实体的唯一标识符
entity_name string 实体的名称
entity_sample_name string 实体的简称,即实体名称去掉括号
entity_url string 实体百科页面的url地址
view_number int 实体页面的浏览次数,即实体的热度
description string 实体的摘要,即该实体的描述信息
isa string 实体挂载到的概念标签,尽可能挂载到最底层的概念标签上。(理论上,一个实体可以挂载到多个概念标签上,为了降低挂载难度,目前只挂载到一个概念标签下)
tags list 该实体的开放标签,不局限于概念树上的标签
alias list 实体的常见别名
relations list 实体的三元组,且三元组尾部链接到另一个实体
attributes list 实体的三元组,尾部为字符串(尾部也有可能是一个实体,但链接到相应的实体上)
数据地址:网盘/CAAI2019history_data/kg_info/history-kg-all.zip

       (3)实体百科页面
       实体的百科页面内容为html格式(每个文件以实体id号命名),具体如下:

       数据地址:数据地址:网盘/CAAI2019history_data/web_txt/

       (4)历史知识问答的开发集
       Key为‘问题’和‘答案’,示例如下:
 {"问题": "拜占庭帝国灭亡的时间是________年。", "答案": "1453"}
 一行一条json数据
       数据地址:数据地址:网盘/CAAI2019history_data/历史知识问答开发集Json.zip