百度AI技术霸榜国际权威榜单!全球首个知识增强文档理解模型刷新世界纪录
百度AI技术在国际技术比拼中再夺佳绩。在文档智能国际权威榜单文档视觉问答DocVQA任务中,百度ERNIE-Layout在4项文档理解任务上刷新世界最好效果,成为文档智能国际领域当之无愧的“MVP”!
ERNIE-Layout,是一个基于文档布局知识增强的跨模态预训练模型。它看似高冷,但可能正在你的身边,帮你解决问题。比如报销过程中,ERNIE-Layout可以自动、快速、准确地识别和提取票据中的关键信息,实现智能化的实时财务报销审核。
被ERNIE-Layout刷新记录的文档视觉问答DocVQA,是一个跨模态的文档抽取任务评测,需要AI模型在抽取和理解文档中文本信息的同时,还能充分利用文档的布局、字体、颜色等视觉信息。简单来说,就是让AI看图回答一些“刁钻”问题。比如给AI一张图片,问它“手掌中的卡片上写了什么”。AI需要准确找到图像中的“手掌”并确定其中“卡片”的位置,进而结合文档中文字和布局的信息得到 “Trabon”这一答案。
人类完成这些任务尚且需要一定时间找到文字位置、分辨字体字形,对AI而言就更有挑战性了。完成这项任务需要融合视觉解析、布局分析、语义理解、信息抽取等一系列技术,是一项综合能力的挑战。只有全面发展的“学霸”级AI才有可能在这项挑战中取得好成绩。
ERNIE-Layout之所以能刷新DocVQA任务记录,一定程度上得益于它的技术基底——文心ERNIE。文心ERNIE是百度自研的语义理解模型,自诞生一来,已经刷新数十个世界权威榜单记录、横扫多项业界大奖。此次,研究人员创新性地基于文心ERNIE推出布局知识增强技术,对文本、图像、布局等信息进行联合建模,真正缩小了AI在文档理解能力上与人类的差距,让它不仅能够『看清』、更能『看懂』图片上的文字。
除了登顶DocVQA之外,ERNIE-Layout还在文档信息抽取权威榜单SROIE中夺冠,并在表单理解FUNSD、票据理解CORD等多个公开数据集上取得了目前业界最好的效果,技术实力不断得到验证。
在技术上持续突破的同时,ERNIE-Layout也已经集成在百度旗下的智能文档分析平台TextMind上,为银行、券商、法律、能源、传媒、通信、物流等众多行业,为企业的数字化、智能化转型提供AI技术助力。
比如,企业中的财务报销智能审核这个“硬需求”,已经基于ERNIE-Layout有了成熟的解决方案,不同样式票据中的关键信息就能被自动、快速、准确地识别和提取,实现智能化的实时财务报销审核,解决人工审核带来的人力成本高、审核时间长等问题。数据显示,TextMind提供的实时财务报销审核服务能为企业带来5倍以上的效率提升。
来源:网络