Google AI研究人员使用人体模型挑战YouTube视频来改善深度预测

谷歌人工智能研究人员今天表示，他们使用2,000个“人体模型挑战”YouTube视频作为训练数据集来创建一个能够根据运动视频进行深度预测的人工智能模型。这种理解的应用可以帮助开发人员在手持相机和3D视频拍摄的场景中制作增强现实体验。

人体模型的挑战要求一群人在一个人拍摄视频时基本上表现得像时间一样停滞不前。研究人员在一篇名为“通过观察冰冻人物学习移动人的深度”的论文中表示，这提供了一个数据集，可以帮助检测摄像机和视频中人物移动的视频中的景深。

研究科学家Tali Dekel和工程师Forrester Cole在一篇博客中说：“虽然最近使用机器学习进行深度预测有所激增，但这项工作是第一个针对同时摄像机和人体运动的情况定制基于学习的方法。”今天发布。

谷歌的研究人员表示，这种方法优于制作深度图的最先进工具。

“就人们在视频中保持静止而言，我们可以假设场景是静态的，并通过运动结构(SfM)和多视图立体声(MVS)算法处理它们来获得准确的相机姿势和深度信息。，“报纸上写道。“因为包括人在内的整个场景都是静止的，我们使用SfM和MVS估计相机的姿势和深度，并使用这个衍生的3D数据作为训练的监督。”

为了制作模型，研究人员训练了一个能够从RGB图像输入的神经网络，人类区域的掩模和视频中非人类环境的初始深度，以便生成深度图并进行人体形状和姿势预测。

去年，加州大学伯克利分校人工智能研究人员还利用YouTube视频作为数据集来训练人工智能模型，以舞蹈江南风格，并执行像后空翻这样的杂技人类专长。

标签： Google AI

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。