2019第二届中国“AI+”创新创业大赛--中文场景文字识别技术创新大赛

发布时间: 2019-09-10
浏览次数: 375次

各相关单位:

由中国人工智能学会主办,百度深度学习平台飞桨(PaddlePaddle)承办的2019第二届中国“AI+”创新创业大赛—中文场景文字识别技术创新大赛将于7月至11月举行。本届大赛将围绕中文场景文字识别赛题展开,作为人工智能领域重要的研究方向之一,该项技术近年来得到了快速发展,新模型和新方法层出不穷。现将2019第二届中国“AI+”创新创业大赛—中文场景文字识别技术创新大赛的有关事项通知如下:



一、大赛机构


       1.主办单位
       中国人工智能学会


       2.承办单位
       百度公司
 
       飞桨作为国内唯一功能完备开源开放的深度学习平台,为本次参赛选手提供了集深度学习核心框架、工具组件和服务平台一站式服务。百度大脑AI Studio作为官方指定唯一竞赛日常训练平台,提供高效的学习和开发环境,更有亿元免费Tesla V100算力赠送,助力选手取得优异成绩。


二、参赛办法


       1.参赛对象
本次竞赛面向全社会开放,不限年龄、身份、国籍,相关领域的个人、高等院校、科研机构、企业单位、初创团队等人员均可报名参赛。大赛相关单位有机会提前接触赛题和数据的人员不得参加比赛,其他员工可以参与比赛排名,但不领取任何奖项。
 
       2.参赛组队形式
支持以个人或团队(线下自由组队)的形式参赛,每支参赛队伍的人数不超过5人,允许跨单位自由组队,每人只能参加一支队伍。参赛选手报名须保证所提供的个人信息真实、准确、有效。
 
       3.报名方式
       2019年7月5日至8月5日,登录比赛官网(
https://aichina.caai.cn)在线报名。参赛团队使用已有百度账号或新注册百度账号报名,在线完善相关信息,即可报名参赛。若以团队形式参赛,须指定其中一人为队长,队长作为团队发言人与通讯联络人,注册的百度账号团队内部共享使用。参赛期间登录百度的平台均需保持与该账号一致。
 
       4.参赛选题

       (1)赛事背景

       近年来,中文场景文字识别技术在人们的日常生活中受到广泛关注,具有丰富的应用场景,如:拍照翻译、图像检索、场景理解等。然而,中文场景中的文字面临着包括光照变化、低分辨率、字体以及排布多样性、中文字符种类多等复杂情况。如何解决上述问题成为一项极具挑战性的任务。


       本次AI技术创新大赛以中文场景文字识别为主题,提供大规模的中文场景文字识别数据,旨在为研究者提供学术交流平台,进一步推动中文场景文字识别算法与技术的突破。参赛选手需提交使用深度学习平台飞桨PaddlePaddle训练的模型,对图像区域中的文字行进行预测,返回文字行的内容。


       (2)赛题描述
       文字识别的主要任务是对图像区域中的文字行进行预测,返回文字行的内容。
本次比赛要求选手必须提交使用深度学习平台飞桨(PaddlePaddle)训练的模型。
 
       (3)模型基线介绍
       主办方提供相关基线代码供参赛选手参考,登录百度大脑AI Studio比赛页面(
https://aistudio.baidu.com/aistudio/competition)了解更多基线详情。
 
       (4)数据集介绍
       本次竞赛数据集共包括33万张图片,其中21万张图片作为训练集,12万张作为测试集。数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片。


       注明:可以使用公开数据集或者公开数据合成工具生成的数据集进行训练;不允许使用私有数据用于训练,如果使用,必须提供数据集链接。


三、竞赛时间安排


       2019年7月5日 启动报名
       2019年7月10日 开放训练集数据,选手可训练调试模型
       2019年8月5日 截止报名
       2019年8月6日 开放测试集数据,选手可提交结果
       2019年9月20日 截止提交结果
       2019年9月23日 排行榜前20名队伍截止提交材料
       2019年9月27日 公布最终排名前十名获奖队伍名单
       2019年10月下旬或11月上旬 全国路演、颁奖
       *百度公司对本次比赛规程拥有最终解释权


四、竞赛赛制


       1.比赛整体流程

       本次大赛不分初赛、复赛,最终榜单前十的队伍有机会参加由中国人工智能学会举办的全国路演活动。在各阶段,参赛队伍须按照要求按时、合规地提交参赛作品。


       2.作品评审规则

       (1)评分标准

       本任务采用文字行级别准确率为评价标准,只有当预测的文字行与标注文本行完全匹配时,视为正确。为了避免标注上的歧义,竞赛组委会在计算指标之前对文字行进行如下预处理:
   全角统一为半角
   英文字符统一为小写
   中文字符统一为简体
   忽略所有空格和符号


       (2)自动评审
       每支队伍每天参与评测的提交次数不超过5次,排行榜将按照评测分数从高到低排序,并且实时更新。排行榜上只显示每支队伍成绩最好的一次提交结果。各支队伍可在提交结果页面的个人成绩中查看历史提交记录。


       (3)材料复审
       2019年9月20日24点截止提交结果,榜单排名前20的参赛队伍需要在2019年9月23日24点前将以下材料上传至AI Studio项目集中:

可复现的算法代码
方法原理介绍文档 


     竞赛评审委员将对提交至AI Studio项目集的材料逐一审核,确认无作弊和材料齐全的队伍将获得成绩,否则将取消评奖资格。审核结束后,将于2019年9月27日24点前公布最终排名前十名队伍的名单。参赛队伍提交的所有参赛资料的知识产权归参赛队伍所有,参赛资料仅用于本次大赛评奖。
全国路演的具体安排、时间另行通知。


五、奖项设置


       本赛事将评出榜单前10支队伍,奖金如下:
       第1名 奖金¥15,000/队
       第2-3名 奖金¥10,000/队
       第4-6名 奖金¥5,000/队
       第7-10名1000元京东实体卡/队
       需特别注意
       1.以上所有提及金额均为税前金额。
       2.获奖评定需选手按要求提供材料及团队成员名单。


六、竞赛管理


       1.    报名费用
       本次竞赛不收取任何报名费用


       2.    餐饮住宿
       受邀参加全国路演的选手期间食宿由百度竞赛组委会安排,往返交通费由百度竞赛组委会报销,其他费用自理。


       3.    竞赛秘书处联系方式

       报名网站:https://aichina.caai.cn/ 

       报名、赛务等联系人:张叔夏
       邮箱:
zhangshuxia01@baidu.com
       电话:18565752184