腾讯优图: 多模态融合是计算机视觉技术发展的重要趋势
12月19日-20日,由腾讯发起的2020 Techo Park开发者大会于北京顺利召开。作为面向全球开发者和技术爱好者的年度盛会,本次开发者大会针对行业开发者、ISV、科研机构、高校师生、创业公司、开源社区工程师等设置了很多的亮点内容和创新活动,来自国内外200多位技术大咖为大家带来一场年度的技术嘉年华。腾讯优图实验室总监黄小明出席大会并在AI分论坛上做了主题为《视觉AI技术的探索与实践:“新基建时代”下的生产力》致辞分享。
腾讯优图实验室总监 黄小明
计算机视觉是机器认知世界的基础,也是最重要的人工智能技术之一。黄小明认为,计算机视觉将机器学习应用于视觉领域,构成人工智能的感知基础,加速人工智能在相关行业应用落地。
黄小明表示,面对不同场景需求,计算视觉的准确度正在不断提高。随着视觉技术精度不断提升,已经广泛应用在零售及金融民生等领域。制造业中的质量检查和控制,成为工业视觉的重要应用场景。中国是世界最大的制造业国家,它的生产力价值正在显现。
“在未来的计算机视觉研究中,多模态融合、多技术融通是一个重要的趋势。”黄小明表示,人工智能正在从语音、文字、视觉等单模态智能,向着多种模态融合发展,结合分布式平台的计算能力,实现更高精度的场景构建,和对动态场景的处理能力。
以下为黄小明演讲实录:
各位嘉宾:
我是腾讯优图实验室的黄小明, 非常荣幸在这个场合有机会跟各位同仁就一些技术问题进行探讨。
视觉AI技术是我研究的主要领域之一。近年来,深度学习技术、GPU算力以及海量数据,作为AI技术发展的三大催化剂,加速了视觉技术在各行各业应用落地,助力产业互联网升级。计算机视觉的广阔应用前景,为我们展开了前所未有的壮丽图景。
目前,计算机视觉已经在工业视觉、OCR以及内容理解等领域获得重大突破,随着计算机视觉技术精度和成熟度的提高,正不断渗透到娱乐、医疗、零售行业等更多重点应用场景,推动技术变革和用户体验提升。例如,在泛娱乐领域,以计算机视觉为基础的人脸检测技术、人脸关键点定位技术、人脸融合以及人像分割技术等AI视觉技术,通过对泛娱乐场景各类基础人脸研究和挖掘整合,打造出多项泛娱乐人像特效应用,为泛娱乐行业用户提供各类新奇酷炫的AI视觉特效和娱乐体验。
疫情期间,由优图提供视觉AI技术支持的腾讯“防疫健康码”,让民众通过申请涵盖自身健康信息的二维码,获得电子出行凭证,方便民众在疫情期间出入公共场所,也利于为政府部门统一管理。在各地复工复产的高峰期,各地健康码互通,民众出入不同省市都只用进行一次健康状况的认证,加快复工复产进度,也使国家在疫情期间对信息的统一管理更加精准有效。腾讯“防疫健康码”是服务用户最多、增长速度最快的健康码。截至目前,腾讯防疫健康码服务9亿用户、累计亮码150亿人次,累计访问量500亿次。背后都有我们的视觉AI在发挥作用。
在未来的计算机视觉研究中,多模态融合、多技术融通是一个重要的趋势。人工智能正在从语音、文字、视觉等单模态智能,向着多种模态融合发展,结合分布式平台的计算能力,实现更高精度的场景构建,和对动态场景的处理能力。
当然我们的工作还面临着诸多挑战。目前还无法建立一个通用的“视觉机器”,无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高,也没有达到产业化应用的理想状态。要解决这个问题,需要从端到端打通各个模态之间的关系,形成可以真正多维度交互的智能机器,让感知智能升级为认知智能。
计算机视觉的技术前景是令人兴奋的,还有很多未抵达的神奇地域等着我们去探索。阿兰·图灵曾说过:“这不过是将来之事的前奏,也是将来之事的影子。”从人类开辟出人工智能领域,到今天真正的应用落地,时光只不过是历史一瞬。未来,让我们仰望星空,脚踏实地,共同创造中国计算机视觉的新辉煌,期待各位的分享。