ICPR 图像识别与检测挑战赛冠军方案出炉,基于偏旁部首来识别 Duang 字 ...

图灵汇官网

随着互联网的迅速发展,图片成为了信息传播的重要媒介。图片中的文本识别与检测技术也成为学术界和产业界的研究热点,广泛应用于证件照识别、信息采集、书籍电子化等领域。

然而,长期以来缺乏基于网络图片的、以中文为主的OCR数据集。针对这一问题,阿里巴巴的“图像和美”团队推出了MTWI数据集。这是阿里巴巴首次公开发布的OCR数据集,也是目前难度最大、内容最为丰富的一个网络图片OCR数据集。

基于该数据集,阿里巴巴“图像和美”团队联合华南理工大学共同举办了ICPR MTWI 2018挑战赛。比赛分为三个独立赛道:识别单行文本、检测并定位图像中的文字行位置、识别整图中的文字内容。每个赛道吸引了超过一千支队伍参加。

来自NELSLIP(National Engineering Laboratory for Speech and Language Information Processing,中科大语音及语言国家工程实验室)的杜俊教授、戴礼荣教授团队与科大讯飞合作,赢得了全部三项任务的冠军。以下是中科大学生张建树和朱意星对比赛方案的描述。

本次比赛提供了20000张图像作为数据集,其中50%用于训练,50%用于测试。所有图像均来源于网络,主要包括合成图像、产品描述和网络广告。每张图像可能包含复杂的排版、密集的小文本或多语言文本,甚至带有水印,这些都对文本检测和识别构成了挑战。

文本识别

比赛中提交的方案大致分为两类:一种基于CTC,另一种基于注意力的Encoder-Decoder。NELSLIP团队最终选择了第二种方案。

比赛难点

首先,OCR面临连续文本和复杂自然场景背景的问题,噪音干扰较大。其次,深度学习模型需要大量数据进行训练。若训练样本太少,很难训练出有效模型。比赛中存在一些繁体字,而训练样本较少,导致识别困难。

解决方案

Radical Analysis Network (RAN) 网络

NELSLIP团队使用了RAN网络,该网络主要用于解决少样本问题。它是一种基于注意力机制的编解码方法,将汉字拆解成偏旁部首,以提高识别效率。这种方法不仅减少了冗余,还能识别低频词,即使这些词未出现在训练集中。

注意力机制的改进

团队对注意力机制进行了改进,增加了多头注意力机制,并引入了coverage actor,以提高注意力对齐能力。此外,还使用了attention guider技术,增强了模型的指导能力。

数据增强

团队还进行了数据增强工作,如文本旋转和压缩等。

难以解决的案例

比赛中的难点包括背景噪声过大、图片放大后模糊、以及低频词识别问题。RAN网络对后者提供了有效的解决方案。

检测

比赛中,检测方面存在多角度、文本交叠、模糊和长度差异等问题。团队采用LocSLPR和堆叠R-CNN等方法,有效解决了这些问题。

实际问题

比赛中还遇到了一些实际问题,如图像分辨率低、旋转问题以及注意力机制的应用等。未来的研究将重点关注注意力机制和编码器的改进。

本文来源: 图灵汇 文章作者: 梁志宁