在CCF GAIR 2019(全球人工智能与机器人峰会)上,腾讯AI Lab Robotics X实验室主任张正友博士以其深厚的学术积淀与前沿的产业视角,发表了题为“计算机视觉的三生三世”的精彩演讲。本次演讲不仅系统梳理了计算机视觉技术的发展脉络,更结合腾讯在AI与机器人领域的探索,揭示了该技术从感知到认知、再到行动的演进轨迹,以及对未来技术开发和产业应用的深远影响。
第一生:从“看见”到“看懂”——感知智能的崛起
张正友博士首先回顾了计算机视觉的“第一生”,即从图像处理到模式识别的经典时期。这一阶段的核心目标是让机器“看见”,即从像素中提取边缘、角点、纹理等特征,进而完成物体识别、目标检测等基础任务。算法从传统的SIFT、HOG特征描述子,发展到基于统计学习的模型。这一时期的技术突破,为安防、医疗影像等领域的初步自动化奠定了基础,但机器的“理解”仍停留在表层特征匹配,缺乏对场景的深度语义解析。
第二世:深度学习的革命——认知智能的飞跃
演讲的重点落在了计算机视觉的“第二世”,即深度学习驱动下的爆发式增长。张博士指出,卷积神经网络(CNN)的复兴,尤其是AlexNet在2012年ImageNet竞赛中的突破性表现,彻底改变了领域格局。机器不再仅仅“看见”轮廓,而是开始“看懂”内容——识别千类万物、理解复杂场景、甚至生成逼真图像。这一阶段,计算机视觉技术与自然语言处理、语音识别深度融合,催生了跨模态理解能力,例如图像描述、视觉问答等。张博士分享了腾讯AI Lab在视频理解、人脸识别、医疗影像分析等方面的前沿成果,体现了认知智能在产业落地中的巨大价值。
第三世:从认知到行动——具身智能的未来
最为前瞻的部分,张正友博士阐述了正在开启的“第三世”:计算机视觉与机器人学的深度融合,即“具身视觉”或“机器人视觉”。这标志着技术从被动“看懂”世界,迈向主动“交互”与“改变”世界。在这一阶段,视觉系统不仅是感知器官,更是机器人决策与行动的核心导航与反馈系统。它需要解决动态环境中的实时定位与地图构建(SLAM)、手眼协调、复杂操作等挑战。作为腾讯Robotics X实验室的负责人,张博士特别强调了其在机器人感知、决策与控制一体化方面的探索,例如灵巧操作、移动导航等,目标是打造能够适应复杂物理世界的智能体。这不仅是技术的演进,更是计算机视觉从虚拟信息处理走向实体世界交互的关键一跃,将为智能制造、无人驾驶、家庭服务机器人等带来革命性变化。
计算机技术开发的启示与展望
贯穿整个演讲,张正友博士结合其领导腾讯AI Lab Robotics X的实践经验,对计算机技术开发提出了深刻见解。他认为,未来技术的发展必然是跨学科的融合,计算机视觉需要与强化学习、机器人学、认知科学更紧密结合。技术的落地必须紧密结合真实场景的需求,解决数据稀缺、模型可解释性、安全伦理等核心挑战。腾讯正通过“AI in All”的战略,将包括视觉在内的AI能力赋能于游戏、内容、社交、医疗等广泛领域,而Robotics X则聚焦于前沿的通用人工智能与实体智能研究。
张正友博士在CCF GAIR 2019的演讲,以“三生三世”为喻,清晰勾勒出计算机视觉从感知、认知到行动的宏大技术史诗。这既是对过往成就的,更是对尤其是视觉与机器人结合所开启的“第三世”的激昂展望。它为全球的计算机技术开发者与研究者指明了一个方向:人工智能的终极使命,或许是创造出能够像人一样,通过视觉感知世界、理解世界并最终灵巧作用于世界的智能机器。腾讯在此征程中的布局与实践,无疑将成为推动这一未来加速到来的重要力量。