2022年9月9日,掘力计划的第23期在线技术分享活动聚焦于“AIGC的应用与革新”,特别邀请了Jina AI工程师季光辉,以《多模态大模型构建无障碍数字体验》为主题,探讨了为视障人士打造平等数字环境的可能性。这一演讲围绕多模态AI产品SceneXplain,阐述了其通过算法创新,如何为残障群体提供无界限的数字体验。
在移动互联网时代,无障碍概念成为全球关注焦点。对于包括2.85亿视力障碍者在内的残障人群而言,获取平等的数字产品与服务显得尤为重要。发达国家已逐步将无障碍标准纳入法规,要求政府网站等公共服务领域必须满足这一要求。
当前,尽管部分政府网站已尝试达到无障碍标准,但实际效果参差不齐。例如,欧盟内仅有34%的政府网站符合规定,即便是达标网站,图像描述也常过于简略或不精准,这主要归因于现有图像描述算法的技术局限。
为解决上述问题,Jina AI推出的SceneXplain,采用多模态深度学习技术,致力于生成高密度、多语言的图像描述,以填补现有算法的空白。其核心优势在于:
SceneXplain不仅限于图像处理,还能自动解析视频内容,提供多语言描述,显著提升视频的无障碍体验。该产品为开发者提供了灵活的API接口,允许自定义描述长度、语言等参数,便于集成到各类无障碍应用中,进一步扩大其覆盖范围。
在数字社会中,通过科技进步促进包容性发展是我们的共同责任。SceneXplain作为AI技术在无障碍领域的创新实践,展现了算法进步如何惠及特殊群体,为他们提供了超越文字与图像的丰富数字体验。未来,我们应继续探索更多可能性,携手构建一个更加温暖、包容的数字世界。