第七届 达观杯
关于达观杯
作为国内领先的智能文本处理企业, 达观数据已连续七年主办了全球性人工智能算法竞赛“达观杯”,邀请高校、科技型企业和自然语言处理爱好者,共同参与和研究实际业务场景下的人工智能技术问题。属文本处理领域第一赛事,累计吸引近两万名选手参赛,提交作品总数超三万件。
赛题背景
随着数字文档的广泛应用和发展,对非结构化数字文档进行智能处理成为了一个备受瞩目的研究方向。其中版面分析是文档智能处理领域中最具价值和挑战性的一部分,可以为多种下游任务提供服务。在金融、制造、政务等各行各业的文档处理中,复杂结构文档(包括表格、图表和文本信息)的版面分析能够提高信息提取准确性,降低解读错误风险,提高自动化流程效率。能够为多个领域的文档分析提供支持,具有广泛的应用潜力,为企业和机构提供发展机会和竞争优势。
为提高计算机视觉、自然语言处理以及多模态技术在版面分析任务中的解决能力,推动这一领域的发展,特举办此次版面分析比赛。该比赛提供了一批文档版面分析标注数据,旨在促进相关领域的研究者和从业人员共同提高对版面分析任务的解决能力。通过参加此次比赛,参赛者有机会运用计算机视觉、自然语言处理以及多模态技术,结合提供的文档版面分析标注数据,提出高效准确的解决方案。该赛题对各行各业的自动化流程提取关键信息具有重要意义,同时也为其他领域的文档处理提供借鉴并推动相关技术的进一步应用和发展。
第七届 达观杯赛题任务
参赛者需根据提供的比赛背景和数据,有效地应用相关领域的知识和方法,解决各行业领域文档版面分析任务的挑战,提高算法和模型在此项任务上的性能。具体任务是识别出给定数字文档中的不同信息类别,包括文本、标题、表格等元素,提供的数据内容包含文档的图像信息和对应的OCR结果。参赛者需要开发一个模型,能够识别文档图像中的常见布局元素,并为每个识别结果提供置信度评分。
第七届 达观杯
赛事数据
初赛和复赛均提供下载数据,选手在本地进行算法调试,在比赛页面提交结果。
-
初赛(A榜)训练集包含3000张左右的图片和对应的版面分析标注以及OCR标注;
-
初赛(A榜)测试集包含1000张左右的图片和对应的OCR标注。
-
复赛(B榜)测试集包含1000张左右的图片和对应的OCR标注。其中,OCR标注为通过OCR服务获得的图片中的文字位置和文字内容,未经过人工清洗。
第七届 达观杯
丰厚奖励
参赛激励:
1.面试直通车:比赛排名Top50的选手将获得达观数据全职和实习工作的面试直通机会,优先录用。
2.“周榜单激励”:
(1)周榜活动时间:A榜第三周开始每周五统计上周周榜排名
(2)周榜活动规则:
-
初赛A榜开启后第三周开启“周榜单激励”活动,每周一公布截至上周周榜单TOP1团队信息,Top1团队即为“周冠军团队”。
-
经审核后,“周冠军团队”可获得价值200元精美礼品一份,本活动每个团队最多领取2次奖品,超出则顺延至下一名次团队。奖品将在初赛结束后统一发放。
3.“鱼跃龙门”奖:赛事期间,前10名超过0.85的团队,可获得精美奖品一份,数量有限先到先得
4.“梅开二度”奖:凡过往参与过达观杯算法竞赛的选手,再次参与本届比赛且取得0.82分以上成绩可获得精美奖品一份!仅限20份,先到先得!
第七届 达观杯
赛程安排
-
初赛(A榜)阶段:2023年9月21日—2023年11月2日,选手可登录大赛官网报名;同时开启初赛线上评测,选手可在线提交结果文件至竞赛平台,每日每队最多可提交3次,测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩,相关团队必须自行保存最高成绩作品的源代码以备审核;初赛(A榜)评测结束后,成绩TOP20的选手可参与(复赛)B榜评测
-
复赛(B榜)测试集发布:2023年11月3日 12:00
-
复赛(B榜)阶段:2023年11月3日 12:00—2023年11月5日 23:59
-
代码审核阶段:2023年11月6日—2023年11月10日
-
决赛阶段:2023年11月中旬(具体时间另行通知)
(暂定,如因不可抗力或其他因素影响而变更时间,组委会将在第一时间通知选手。)
第七届 达观杯
参赛规则
-
成绩验证:B榜截止后,排名前10名的团队需要参与到成绩的复核中,复核中参赛队伍需要提供作品源代码和说明文档以保证成绩的真实有效。复核有效的队伍将进入最终的决赛答辩中,决赛答辩中将综合考虑B榜成绩(70%)与算法的高效性、创新性、有效性、合理性等考量指标(30%)得到最终的排名。
-
作品原创:参赛作品必须保证原创性,不违反任何中华人民共和国有关法律法规,不侵犯任何第三方知识产权或其他权利,一经发现或经权利人提出并查证,大赛组委会将取消其比赛资格和成绩并进行严肃处理。
-
作品知识产权:参赛作品(包含但不限于算法、模型、方案等)知识产权归出题单位、参赛者、官方竞赛平台三方共享,大赛组织单位拥有对参赛作品组织投资对接和产品孵化服务的优先权利;大赛组织方及竞赛平台均有权利将参赛作品、比赛信息、参赛团队信息用于宣传品、相关出版物、制定及授权媒体发布、官方网站浏览及下载、展览(含巡展)等活动项目。
-
竞赛数据说明:组委会授权参赛人员使用提供的数据进行指定比赛的模型训练工作,本次比赛数据集的版权归达观数据有限公司所有,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关数据提供单位。
第七届 达观杯
参赛顾问