Facebook近日在年度开发者大会上,扎克伯格详细介绍了公司在社交网络中的人工智能计划,目标是开发出比人类认知能力更强的系统。展示的技术之一是图像识别,这一技术可以让视障人士“看到”图片内容,并能将其描述出来。
图像识别技术不仅有助于视障人群,还在其他领域发挥了重要作用。例如,汽车内的安全功能可以检测大型生物,社交媒体上的照片也可以帮助发现商业机会。这些应用展示了图像识别技术(即计算机视觉)的潜力,其价值才刚刚开始显现,人们对其应用频率和深度也在不断增加。
即将举行的LDV视觉峰会已经连续举办三年,是一个专注于视觉科技的年度会议,涵盖虚拟现实、医疗成像设备、内容分析等技术。LDV Capital的Evan Nisselson表示,近年来计算机视觉的发展带来了巨大的机遇,这种技术正以指数级的速度影响各个商业领域,包括自动化机械、广告、增强现实等。
开源数据、深度学习技术、用户友好的编程工具、更快更经济的计算性能,都使得计算机视觉技术以及其他AI形式,如自然语言处理、生物信息学、游戏等得到了显著发展。
尽管深度学习和人工智能被普遍认为是未来的趋势,但这些技术的具体应用及其对企业的影响仍需探讨。例如,谷歌的TensorFlow、Facebook的DeepFace和微软的牛津工程并不是完全相同的东西。以下是对当前技术工具及其应用的简要概述。
训练材料:开源数据
深度学习技术需要大量数据来支持其功能,如图像识别。ImageNet和Pascal VOC是两个重要的开源数据集,提供了数百万张带有标签的图片,帮助机器学习系统识别图片内容。谷歌、Facebook和其他企业利用这些开源数据集训练他们的机器学习产品,尤其是谷歌和Facebook可以利用它们从用户上传的图片中获得大量数据。
构建模块:开源软件库和框架
一旦有了数据,就需要建立一个可以从中学习的系统。开源软件库提供了构建计算机视觉功能所需的框架,包括面部和情感识别、医疗检查、汽车障碍物检测等功能。ImageNet、谷歌的TensorFlow、伯克利的CAFFE和Facebook AI Research使用的Torch等工具,都可以帮助这些系统学习并提高准确性。
可携带:托管API
并非所有公司都有能力组建专门的计算机视觉工程师团队。托管API服务可以在云端提供图像识别功能,易于集成到现有的应用程序中,适用于各种规模的企业。例如,Google Cloud Vision和Microsoft Cognitive Services提供了一系列图像识别服务,如面部识别、文字识别等,企业可以根据需要付费使用。
企业应用计算机视觉
计算机视觉技术为企业提供了新的可能性,即使这些企业没有庞大的技术团队。一些企业可能需要定制化的算法来实现特定功能,如美容公司寻找特定类型的头发照片。对于那些不把计算机视觉作为核心业务的企业,结合开源数据和开源框架,或者使用托管API,可以有效满足其需求。
总的来说,计算机视觉技术在不同领域的应用日益广泛,无论是大公司还是小企业,都能从中获益。关键在于如何充分利用现有的技术和资源,以达到最佳效果。