同盾人工智能研究院发表文档图像最新研究成果,性能达到国际领先水平

中国网
2024-04-20 10:56
951
近日同盾科技人工智能研究院在arXiv上发布了最新研究成果,题为基于文本行的文档图像质量评估框架和文本行图像质量数据合成,该研究成果性能达到国际领先水平,已经被即将于今年9月份举办的第15届国际文档分

近日同盾科技人工智能研究院在arXiv上发布了最新研究成果,题为基于文本行的文档图像质量评估框架和文本行图像质量数据合成,该研究成果性能达到国际领先水平,已经被即将于今年9月份举办的第15届国际文档分析与识别大会(ICDAR2019)录用。ICDAR是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次。

image.png

互联网公司的业务流程中经常需要提交一些文档资料进行审核,随着智能手机的普及,通过手机拍照方式上传文档图像已经成为一种主流方式。同时也导致文档图像的数量迅速增加,人工录入和复核文档资料完成业务已经变得异常艰难,因此文档图像的智能分析和识别也变得越来越重要,这也是智能流程自动化(IPA)的核心技术之一。

比如在健康险核赔中,智能化的流程一般会包括如下几个环节:

文档图像采集:用户采集图像上传

文档图像质量评估:系统实时的进行图像质量评估,如果不清晰就直接要求用户重新上传

文档材料分类:对清晰的文档材料进行自动归类

OCR信息提取:对文档进行检测、定位和识别以提取文档信息

信息结构化:用NLP和知识图谱技术对信息进行结构化

智能核赔:从医、药、病、人等几个不同角度分析风险,并自动理算和核赔。

image.png

显然,在上述流程中,如果用户上传资料清晰度很差,将会大大降低文档图像OCR的识别精度,进而影响后续的业务流程。所以,很有必要对文档图像质量进行评估,以防止那些低质量的文档图像被上传。

不同与传统的图像质量评估问题,研究人员发现文档图像质量评估则是对文本行范围内的质量更感兴趣。因此论文作者们提出了一种基于文本行的文档图像质量评估框架,该框架由文本行检测、文本行质量预测和文档图像整体质量评估三个阶段组成。

image.png

此外,为了训练文本行质量预测模型,该项目合成了一个文本行图像质量数据集,其中包含52,094个文本行图像,并使用分段函数模拟计算对应的质量标签。该算法在目前最难的文档图像质量评估标准集SmartDoc-QA上表现性能优异,超出目前国际上最好的方法10%以上。



评论区
登录 发表评论