移动互联网、智能手机和社交网络的发展催生了大量的图片信息。例如,据BI五月份报道,Instagram每天上传约6000万张图片;今年2月,WhatsApp每天发送约5亿张图片;微信朋友圈同样以图片分享为主要功能。由于图片不受地域和语言限制,逐渐替代了繁琐的文字,成为主要的信息传播媒介。图片之所以成为主要的信息媒介,主要有两个原因:首先,从用户习惯来看,相比文字,图片更直观、易懂且富有艺术感;其次,智能手机的普及使得拍摄和截图变得更加便捷,方便人们快速记录和分享信息。
然而,随着图片成为信息的主要载体,问题也随之而来。当我们用文字记录信息时,可以通过关键词搜索轻松找到所需内容,而当信息以图片形式呈现时,我们却难以对图片内容进行有效检索,导致信息查找效率降低。在这种背景下,计算机图像识别技术显得尤为重要。
图像识别是指计算机通过处理、分析和理解图像,识别出不同目标和对象的技术。这一过程包括图像预处理、图像分割、特征提取和匹配判断。简单来说,图像识别就是计算机如何像人一样读懂图片内容。借助图像识别技术,我们不仅能更快地搜索图片中的信息,还能创造出一种全新的与外部世界互动的方式,甚至推动外部世界的智能化发展。百度CEO李彦宏曾在2011年提到“全新的读图时代已经来临”。如今,随着图像识别技术的进步,越来越多的科技公司涉足这一领域,标志着读图时代的到来,并引领我们进入更加智能的未来。
在图像识别的初级阶段,用户主要借助该技术满足娱乐需求。例如,百度魔图的“大咖配”功能可以帮用户找到与自己最相似的明星;百度图片搜索则可以找到相似的图片;Facebook研发的DeepFace可以根据照片进行人脸识别;雅虎收购的IQ Engine开发的Glow可以自动为照片生成标签;国内专注于图像识别的公司旷视科技推出了VisionHacker游戏工作室,利用图像识别技术开发体感游戏。
此外,OCR(光学字符识别)技术也非常关键。OCR技术能够将图片中的文字转换为计算机可读的文字,解决了数字世界中文字以图片形式存在的问题。在国内,百度的涂书笔记和百度翻译等产品均采用了OCR技术。谷歌通过DistBelief训练的神经网络,对街景图中的门牌号识别率高达90%,每天识别百万个门牌号。
在这个阶段,图像识别技术主要作为辅助工具,增强了人类视觉,提供了全新的交互方式。例如,我们可以通过搜索找到图片中的关键信息;随手拍下物品即可迅速获取相关信息;在社交网络上提前了解潜在联系人;甚至将人脸识别作为主要的身份验证方式。这些看似普通的应用,当图像识别技术广泛应用于日常生活时,实际上是在将一部分视力外包给机器,就像我们已经将部分记忆外包给搜索引擎一样。
目前的图像识别技术主要用于辅助人类与外部世界交互,提供视觉辅助。然而,当机器真正具备视觉能力后,它们将能够自主完成这些任务。现阶段的图像识别技术更像是盲人的导盲犬,为其提供方向指引;而在未来,图像识别技术将与人工智能技术结合,成为盲人的全职管家,无需盲人亲自操作,而是由机器自主完成所有任务。
例如,在驾驶汽车时,佩戴谷歌眼镜可以将外部信息分析后传递给人类,人类再据此做出决策;但如果将图像识别技术应用于机器视觉和人工智能上,则类似于谷歌的无人驾驶汽车,机器不仅可以获取和分析外部信息,还能全权负责所有行驶活动,实现完全解放。
《人工智能:一种现代方法》中提到,感知是通过解释传感器的响应为机器提供其所在世界的信息,其中视觉是最重要的一种感知方式,因为它是一切行动的基础。在一次论坛上,百度IDL院长余凯问大家,哪种感觉最重要?大多数人认为视觉最重要,因为它是人类最重要的感知方式。视觉提供了80%的感觉信息,决定了我们对外界的认知。机器视觉的重要性同样体现在人工智能中,而图像识别技术则是决定机器视觉的核心技术。
更重要的是,在某些应用场景中,机器视觉比人类视觉更具优势,因为它更准确、客观和稳定。人类视觉存在天然局限,我们看似能立即感知世界,但实际上只有投射到眼球中心的视觉场景才能清晰感知。机器视觉则可以全面记录和分析所有信息,如在视频监控中,传统监控需要人工时刻保持警惕,而借助图像识别技术,计算机可以自行分析视频并判断异常情况,提高了监控效率和准确性。在反恐领域,机器的人脸识别技术也远胜于人工判断。
许多科技巨头也开始布局图像识别和人工智能领域。Facebook签约的人工智能专家Yann LeCun在图像识别领域取得了重大成就,其提出的LeNet模型在多种图像识别任务中表现出色。Google通过DistBelief训练的神经网络学会了识别猫的关键特征。负责该项目的Andrew Ng已加入百度,继续推进人工智能和图像识别的研究。
总之,图像识别技术不仅连接了机器与这个世界,还帮助机器更好地理解和处理信息,最终替代人类完成更多任务。