首页 新闻资讯 “达观杯”智能文档版面分析算法竞赛正式开赛!本届携手上海市计算机学会

“达观杯”智能文档版面分析算法竞赛正式开赛!本届携手上海市计算机学会

9月21日,一场围绕“数融万物 智算未来”为主题的2023年智能分析算法专项职工劳动和技能竞赛启动仪式在市北高新园区隆重举行,也标志着第七届“达观杯”智能文档版面分析多模态数据处理算法竞赛正式拉开帷幕。

9月21日,一场围绕“数融万物 智算未来”为主题的2023年智能分析算法专项职工劳动和技能竞赛启动仪式在市北高新园区隆重举行,也标志着第七届“达观杯”智能文档版面分析多模态数据处理算法竞赛正式拉开帷幕

第七届 达观杯

关于达观杯

作为国内领先的智能文本处理企业, 达观数据已连续七年主办了全球性人工智能算法竞赛“达观杯”,邀请高校、科技型企业和自然语言处理爱好者,共同参与和研究实际业务场景下的人工智能技术问题。属文本处理领域第一赛事,累计吸引近两万名选手参赛,提交作品总数超三万件。

 

赛题背景

随着数字文档的广泛应用和发展,对非结构化数字文档进行智能处理成为了一个备受瞩目的研究方向。其中版面分析是文档智能处理领域中最具价值和挑战性的一部分,可以为多种下游任务提供服务。在金融、制造、政务等各行各业的文档处理中,复杂结构文档(包括表格、图表和文本信息)的版面分析能够提高信息提取准确性,降低解读错误风险,提高自动化流程效率。能够为多个领域的文档分析提供支持,具有广泛的应用潜力,为企业和机构提供发展机会和竞争优势。

为提高计算机视觉、自然语言处理以及多模态技术在版面分析任务中的解决能力,推动这一领域的发展,特举办此次版面分析比赛。该比赛提供了一批文档版面分析标注数据,旨在促进相关领域的研究者和从业人员共同提高对版面分析任务的解决能力。通过参加此次比赛,参赛者有机会运用计算机视觉、自然语言处理以及多模态技术,结合提供的文档版面分析标注数据,提出高效准确的解决方案。该赛题对各行各业的自动化流程提取关键信息具有重要意义,同时也为其他领域的文档处理提供借鉴并推动相关技术的进一步应用和发展。

第七届 达观杯赛题任务 

参赛者需根据提供的比赛背景和数据,有效地应用相关领域的知识和方法,解决各行业领域文档版面分析任务的挑战,提高算法和模型在此项任务上的性能。具体任务是识别出给定数字文档中的不同信息类别,包括文本、标题、表格等元素,提供的数据内容包含文档的图像信息和对应的OCR结果。参赛者需要开发一个模型,能够识别文档图像中的常见布局元素,并为每个识别结果提供置信度评分。

“达观杯”智能文档版面分析算法竞赛正式开赛!本届携手上海市计算机学会

“达观杯”智能文档版面分析算法竞赛正式开赛!本届携手上海市计算机学会

第七届 达观杯

赛事数据

初赛和复赛均提供下载数据,选手在本地进行算法调试,在比赛页面提交结果。

  • 初赛(A榜)训练集包含3000张左右的图片和对应的版面分析标注以及OCR标注;

  • 初赛(A榜)测试集包含1000张左右的图片和对应的OCR标注。

  • 复赛(B榜)测试集包含1000张左右的图片和对应的OCR标注。其中,OCR标注为通过OCR服务获得的图片中的文字位置和文字内容,未经过人工清洗。

第七届 达观杯

丰厚奖励

“达观杯”智能文档版面分析算法竞赛正式开赛!本届携手上海市计算机学会

参赛激励

1.面试直通车:比赛排名Top50的选手将获得达观数据全职和实习工作的面试直通机会,优先录用。

2.“周榜单激励”

 (1)周榜活动时间:A榜第三周开始每周五统计上周周榜排名

 (2)周榜活动规则:

  • 初赛A榜开启后第三周开启“周榜单激励”活动,每周一公布截至上周周榜单TOP1团队信息,Top1团队即为“周冠军团队”。

  •  经审核后,“周冠军团队”可获得价值200元精美礼品一份,本活动每个团队最多领取2次奖品,超出则顺延至下一名次团队。奖品将在初赛结束后统一发放。

3.“鱼跃龙门”奖:赛事期间,前10名超过0.85的团队,可获得精美奖品一份,数量有限先到先得

4.“梅开二度”奖:凡过往参与过达观杯算法竞赛的选手,再次参与本届比赛且取得0.82分以上成绩可获得精美奖品一份!仅限20份,先到先得!

第七届 达观杯

赛程安排

  1. 初赛(A榜)阶段:2023年9月21日—2023年11月2日,选手可登录大赛官网报名;同时开启初赛线上评测,选手可在线提交结果文件至竞赛平台,每日每队最多可提交3次,测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩,相关团队必须自行保存最高成绩作品的源代码以备审核;初赛(A榜)评测结束后,成绩TOP20的选手可参与(复赛)B榜评测

  2. 复赛(B榜)测试集发布:2023年11月3日 12:00

  3. 复赛(B榜)阶段:2023年11月3日 12:00—2023年11月5日 23:59

  4. 代码审核阶段:2023年11月6日—2023年11月10日

  5. 决赛阶段:2023年11月中旬(具体时间另行通知)

(暂定,如因不可抗力或其他因素影响而变更时间,组委会将在第一时间通知选手。)

第七届 达观杯

参赛规则

  1. 成绩验证:B榜截止后,排名前10名的团队需要参与到成绩的复核中,复核中参赛队伍需要提供作品源代码和说明文档以保证成绩的真实有效。复核有效的队伍将进入最终的决赛答辩中,决赛答辩中将综合考虑B榜成绩(70%)与算法的高效性、创新性、有效性、合理性等考量指标(30%)得到最终的排名。

  2. 作品原创:参赛作品必须保证原创性,不违反任何中华人民共和国有关法律法规,不侵犯任何第三方知识产权或其他权利,一经发现或经权利人提出并查证,大赛组委会将取消其比赛资格和成绩并进行严肃处理。

  3. 作品知识产权:参赛作品(包含但不限于算法、模型、方案等)知识产权归出题单位、参赛者、官方竞赛平台三方共享,大赛组织单位拥有对参赛作品组织投资对接和产品孵化服务的优先权利;大赛组织方及竞赛平台均有权利将参赛作品、比赛信息、参赛团队信息用于宣传品、相关出版物、制定及授权媒体发布、官方网站浏览及下载、展览(含巡展)等活动项目。

  4. 竞赛数据说明:组委会授权参赛人员使用提供的数据进行指定比赛的模型训练工作,本次比赛数据集的版权归达观数据有限公司所有,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关数据提供单位。

第七届 达观杯

参赛顾问

“达观杯”智能文档版面分析算法竞赛正式开赛!本届携手上海市计算机学会

 

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

作者: suifengmianlai

为您推荐

圆满落幕!望友精彩亮相2023工业软件生态大会

11月5日-6日,2023工业软件生态大会在深圳成功召开。

开目软件受邀出席2023工业软件生态大会,共探智造未来!

11月5日-6日,2023工业软件生态大会在深圳会展中心火热开展,作为中国高端工业软件领导品牌、行业领先的3D智能工艺软件提供商,开目软件受邀出席并发表主题演讲。

2023第四届中国FMEA峰会暨聪脉新品发布会圆满召开

2023 中国·深圳 第四届中国FMEA峰会 暨聪脉新品发布会 圆满召开 聚焦FMEA 11月1日,由聪脉(上海)信息技术有限公司(以下称聪脉)主办的中国第四届FMEA峰会暨聪脉新品发布会在深圳凯悦酒店圆满召开。

一周客户新闻速递

近期热点 NEWS 2023.11.6 客户新闻 聪脉知道 了解企业客户最新热点 关心企业客户最新资讯 企 业 客 户 新 闻 周 速 递 新闻速览 近期客户热点新闻 1 中国一汽研发总院成功举办中国汽车工程学会汽车非金属材料分会第十届年会 2 金溢科技助力西部首个智驾社区启用! 3 宝钢股份与中国港湾签署战略合作协议 4 4 3 4 日月光半导体推出整合设计生态系统IDE将封装设计效率提升且周期最高可缩短50% 5 广东亿迅2个创新产品入选国家级服务业数字化解决方案优秀案例 6 北方华创连续三年荣登中国电子百强企业榜单 7 广西康明斯发动机首次在柳工重型拖拉机上实现成功配套 聚焦汽车整车行业客户 中国一汽研发总院成功举办中国汽车工程学会汽车非金属材料分会第十届年会 11月2日,“中国汽车工程学会汽车非金属材料分会第十届年会”在湖北十堰隆重举行。

27地入选!住房城乡建设部开展工程建设项目全生命周期数字化管理改革试点

“ 为贯彻落实国务院关于工程建设项目审批制度改革部署,按照全国住房城乡建设工作会议关于“数字住建”工作部署要求,加快推进工程建设项目全生命周期数字化管理,近日,住房城乡建设部印发《关于开展工程建设项目全生命周期数字化管理改革试点工作的通知》,决定在天津等27个地区开展工程建设项目全生命周期数字化管理改革试点工作。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

返回顶部