ICPR 图像识别与检测挑战赛冠军方案出炉,基于偏旁部首来识别 Duang 字 ..._图灵汇

投稿
APP
微信扫一扫获取更多

ICPR 图像识别与检测挑战赛冠军方案出炉,基于偏旁部首来识别 Duang 字 ...

梁志宁

2018-09-06 23:47:19

图灵汇官网

随着互联网的迅速发展，图片成为了信息传播的重要媒介。图片中的文本识别与检测技术也成为学术界和产业界的研究热点，广泛应用于证件照识别、信息采集、书籍电子化等领域。

然而，长期以来缺乏基于网络图片的、以中文为主的OCR数据集。针对这一问题，阿里巴巴的“图像和美”团队推出了MTWI数据集。这是阿里巴巴首次公开发布的OCR数据集，也是目前难度最大、内容最为丰富的一个网络图片OCR数据集。

基于该数据集，阿里巴巴“图像和美”团队联合华南理工大学共同举办了ICPR MTWI 2018挑战赛。比赛分为三个独立赛道：识别单行文本、检测并定位图像中的文字行位置、识别整图中的文字内容。每个赛道吸引了超过一千支队伍参加。

来自NELSLIP（National Engineering Laboratory for Speech and Language Information Processing，中科大语音及语言国家工程实验室）的杜俊教授、戴礼荣教授团队与科大讯飞合作，赢得了全部三项任务的冠军。以下是中科大学生张建树和朱意星对比赛方案的描述。

本次比赛提供了20000张图像作为数据集，其中50%用于训练，50%用于测试。所有图像均来源于网络，主要包括合成图像、产品描述和网络广告。每张图像可能包含复杂的排版、密集的小文本或多语言文本，甚至带有水印，这些都对文本检测和识别构成了挑战。

文本识别

比赛中提交的方案大致分为两类：一种基于CTC，另一种基于注意力的Encoder-Decoder。NELSLIP团队最终选择了第二种方案。

比赛难点

首先，OCR面临连续文本和复杂自然场景背景的问题，噪音干扰较大。其次，深度学习模型需要大量数据进行训练。若训练样本太少，很难训练出有效模型。比赛中存在一些繁体字，而训练样本较少，导致识别困难。

解决方案

Radical Analysis Network (RAN) 网络

NELSLIP团队使用了RAN网络，该网络主要用于解决少样本问题。它是一种基于注意力机制的编解码方法，将汉字拆解成偏旁部首，以提高识别效率。这种方法不仅减少了冗余，还能识别低频词，即使这些词未出现在训练集中。

注意力机制的改进

团队对注意力机制进行了改进，增加了多头注意力机制，并引入了coverage actor，以提高注意力对齐能力。此外，还使用了attention guider技术，增强了模型的指导能力。

数据增强

团队还进行了数据增强工作，如文本旋转和压缩等。

难以解决的案例

比赛中的难点包括背景噪声过大、图片放大后模糊、以及低频词识别问题。RAN网络对后者提供了有效的解决方案。

检测

比赛中，检测方面存在多角度、文本交叠、模糊和长度差异等问题。团队采用LocSLPR和堆叠R-CNN等方法，有效解决了这些问题。

实际问题

比赛中还遇到了一些实际问题，如图像分辨率低、旋转问题以及注意力机制的应用等。未来的研究将重点关注注意力机制和编码器的改进。

识别偏旁部首挑战赛出炉图像基于冠军检测方案

本文来源：图灵汇文章作者：梁志宁

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: 暌违四年，优傲新品重新“定义”协作机器人
图灵汇

: 谷歌 AI 搜索功能被指冲击新闻出版商流量：未经许可提取内容 + 低链接率
图灵汇

: 谷歌发布安卓 16 QPR1 Beta 2 更新：Pixel 8/9 系列手机支持桌面模式、为平板引入窗口化功能
图灵汇

: 谷歌安卓 16 窗口化新规：功能仅限平板，折叠手机体验需外接屏幕
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

下一篇

数据猿·金猿榜丨2017中国图像识别领域最具潜力创业公司 ...

今日科技微观

2018-09-07

5