3D型号/非要求物理电机:Google DeepMind联合开发技
作者:365bet网页版 发布时间:2025-06-04 13:23
6月4日的新闻,技术媒体解码器昨天(6月3日)发表了一篇博客文章,当时Google DeepMind团队与布朗大学合作开发了“武力”技术,使其能够在不需要3D模型或物理引擎的情况下产生逼真的运动效果。用户可以控制AI生成的视频内容,简单地指定力的方向和强度。这项技术承认了两种力量:全球力量(例如在整个屏幕上吹来的风)和当地力量(例如在特定点击中)。这些力以向量场的形式输入系统,然后成为自然和软运动。根据Cogvideox-5B-I2V视频模型,研究人员添加了一个控制网模块来处理物理控制数据。该信号通过变压器体系结构生成视频。每个视频包含49幅画,并在一天之内使用4 GPU A100 NVIDIA完成。培训数据已完全合成。全球力量数据包括15,000个在不同风力下飘扬的旗帜视频。当地力量数据包括12,000个Rawling Spur和11,000个花休克反应的视频。在生成过程中,在将“风”或“气泡”等物理术语添加到文本的描述中之后,该模型会自动建立力与运动之间的正确关系。训练样本结合了文本指示,初始图像和物理力(全球力是完整的矢量场,局部力是动态方向,位置和强度迹象),并通过随机化背景,光和可视化角度来增加多样性。尽管培训数据有限,但该模型具有强大的概括能力,适应新的对象,材料和场景,甚至是教师的简单物理规则。例如,在相同的力下,光对象从特定重力的对象中移开。在用户测试中,可以使用“力量 - 协调”技术创建纯文本或运动和现实主义的巧合。控制路线控制的参考模型并超过了信任实际物理模拟的物理学家(图像的质量仅略低)。但是,仍然存在复杂的场景,例如烟雾有时会忽略风能,人类的手臂像织物一样移动。 DeepMind首席执行官Demis Hassabis最近表示,新一代AI视频模型(例如3)不再限于文本处理和图像,而是逐渐构成了物理规则来表征世界的物理结构。他认为,这是迈向更多一般人AI的重要一步。这可能不仅取决于数据,但可以通过模拟环境中的经验来学习。附在参考资料请求上。分配模型可以根据GitHub物理页面学习和概括控制标志
电话
020-66888888