百度图像识别技术享誉国际,斩获最大规模图像识别竞赛WebVision桂冠 ...

投稿
APP
微信扫一扫获取更多

百度图像识别技术享誉国际,斩获最大规模图像识别竞赛WebVision桂冠 ...

2018-08-19 21:43:05

近日，百度视觉技术团队在国际两大视觉竞赛中取得了显著的成绩，展现了其在图像识别和视频理解领域的领先地位。他们在全球知名的视觉竞赛WebVision和ActivityNet中击败了来自世界各地的100多个参赛队伍，获得了多项世界第一，并受邀在计算机视觉与模式识别领域的顶级会议CVPR上进行报告分享。

此前，百度的人脸检测深度学习算法PyramidBox已经在WIDER FACE这一权威的人脸检测评测集中刷新了行业最佳记录。如今，百度视觉技术团队再次在国际舞台上取得佳绩。

WebVision是一项自2017年以来备受关注的大规模图像识别挑战赛，其数据集规模超过ImageNet。与ImageNet相比，WebVision的数据集直接从互联网上抓取，未经人工标注或筛选，这使得识别难度更大，但也更加贴近现实应用场景。本次竞赛中，WebVision将数据集从1000类扩展至5000类，训练数据量也从240万张图片增加到了1600万张，吸引了全球超过100支顶尖科技公司和知名高校的团队参与。最终，百度以3.95个百分点的优势领先第二名，赢得了WebVision竞赛的冠军。

百度视觉团队自2013年起就开始构建大规模图像分类系统，训练数据主要来源于互联网搜索引擎，目前已经涵盖了10万个标签和数亿张图片。这套系统不仅支持百度Feed流等核心产品的功能，还为华为、小米等国内一流手机厂商提供了精准的物体识别服务。

在视频理解方面，百度视觉技术团队也在ActivityNet 2018竞赛中取得了优异的成绩。ActivityNet是视频理解领域最具影响力的赛事之一，与每年的CVPR会议同期举行。今年，该赛事共有六项比赛。百度在Kinetics视频动作识别任务中连续两年获得冠军，并将平均错误率从12.4%降至10.9%。此外，百度还在动作片段判断Proposal任务中领先第二名1.6个百分点。

视频理解技术能够深入解析视频中的语义内容，从而辅助人工审核编辑工作，提升用户推荐的准确性，丰富视频内容生产。百度此次获奖的技术已经被应用到其在线Feed视频自动分类系统中，实现了视频语义化解析，在视频标签、视频对比和推荐等方面发挥了重要作用。

此外，百度的文字识别（OCR）技术在ICDAR竞赛数据集的最具挑战性的“自然场景随拍文字识别”任务中表现优异，连续两年在检测、识别和端到端三个核心技术领域排名全球第一。百度的计算机视觉技术已经全面开放，包括人脸识别、文字识别、图像审核、图像识别和图像搜索在内的五大类别、58项基础能力，已经服务了数十万开发者，推动了各行各业的发展，加速了百度人工智能技术产品的落地。