近日,百度视觉技术团队在国际两大视觉竞赛中取得了显著的成绩,展现了其在图像识别和视频理解领域的领先地位。他们在全球知名的视觉竞赛WebVision和ActivityNet中击败了来自世界各地的100多个参赛队伍,获得了多项世界第一,并受邀在计算机视觉与模式识别领域的顶级会议CVPR上进行报告分享。
此前,百度的人脸检测深度学习算法PyramidBox已经在WIDER FACE这一权威的人脸检测评测集中刷新了行业最佳记录。如今,百度视觉技术团队再次在国际舞台上取得佳绩。
WebVision是一项自2017年以来备受关注的大规模图像识别挑战赛,其数据集规模超过ImageNet。与ImageNet相比,WebVision的数据集直接从互联网上抓取,未经人工标注或筛选,这使得识别难度更大,但也更加贴近现实应用场景。本次竞赛中,WebVision将数据集从1000类扩展至5000类,训练数据量也从240万张图片增加到了1600万张,吸引了全球超过100支顶尖科技公司和知名高校的团队参与。最终,百度以3.95个百分点的优势领先第二名,赢得了WebVision竞赛的冠军。
百度视觉团队自2013年起就开始构建大规模图像分类系统,训练数据主要来源于互联网搜索引擎,目前已经涵盖了10万个标签和数亿张图片。这套系统不仅支持百度Feed流等核心产品的功能,还为华为、小米等国内一流手机厂商提供了精准的物体识别服务。
在视频理解方面,百度视觉技术团队也在ActivityNet 2018竞赛中取得了优异的成绩。ActivityNet是视频理解领域最具影响力的赛事之一,与每年的CVPR会议同期举行。今年,该赛事共有六项比赛。百度在Kinetics视频动作识别任务中连续两年获得冠军,并将平均错误率从12.4%降至10.9%。此外,百度还在动作片段判断Proposal任务中领先第二名1.6个百分点。
视频理解技术能够深入解析视频中的语义内容,从而辅助人工审核编辑工作,提升用户推荐的准确性,丰富视频内容生产。百度此次获奖的技术已经被应用到其在线Feed视频自动分类系统中,实现了视频语义化解析,在视频标签、视频对比和推荐等方面发挥了重要作用。
此外,百度的文字识别(OCR)技术在ICDAR竞赛数据集的最具挑战性的“自然场景随拍文字识别”任务中表现优异,连续两年在检测、识别和端到端三个核心技术领域排名全球第一。百度的计算机视觉技术已经全面开放,包括人脸识别、文字识别、图像审核、图像识别和图像搜索在内的五大类别、58项基础能力,已经服务了数十万开发者,推动了各行各业的发展,加速了百度人工智能技术产品的落地。