我国自研视频大模型面向全球上线

　　输入文字描述或上传图片，就能生成一段逼真视频。近日，我国自主研发的通用视频大模型Vidu（www.vidu.studio）面向全球正式上线。据悉，这款视频大模型开放文生视频、图生视频两大核心功能，提供4秒和8秒两种时长选择，分辨率最高达1080P，生成一段4秒的视频片段经实测仅需30秒。

　　图为根据文字描述用Vidu生成的视频画面。（受访者供图）

　　Vidu由清华大学联合北京生数科技有限公司共同研发，于今年4月在2024中关村论坛年会上首次发布。清华大学人工智能研究院副院长、北京生数科技首席科学家朱军介绍，Vidu具有“长时长、高一致性、高动态性”的特点，可根据文字和图片生成高清视频，且能保持高流畅、高动态的画面效果。截至目前，Vidu可支持一次性生成最长32秒的视频。

　　“Vidu能模拟真实物理世界，生成细节复杂且符合物理规律的场景，例如合理的光影效果、细腻的人物表情等，还能创造出具有深度和复杂性的超现实主义内容。”朱军说，对于科幻、西部、浪漫、动画等多类型电影，Vidu能生成符合对应风格的画面片段，还能生成影视级特效画面，如烟雾、炫光等效果。

我国自研视频大模型面向全球上线
图片来源于网络，如有侵权，请联系删除

　　图为根据文字描述用Vidu生成的特效画面。（受访者供图）

　　据介绍，在动态性方面，Vidu可生成复杂动态镜头，支持大幅度、精准的动作生成，能在画面里实现远景、近景、中景、特写等不同镜头的切换，能直接生成长镜头、追焦、转场等效果。

　　记者从北京生数科技有限公司获悉，除文生视频和图生视频的两大基础功能外，为了给用户提供更多样化和个性化的视频创作体验，Vidu还上线“动漫风格”和“角色一致性”两大新功能。在“图生视频”板块中，利用“角色一致性”功能，用户可上传人像图或自定义的角色图，通过文字描述就可指定图中角色在任意场景中做任意动作。该功能简化了视频制作流程，也提升了创作自由度。

　　据悉，操作Vidu无需申请，用户直接使用邮箱注册即可上手体验。Vidu的技术突破源于研发团队在机器学习和多模态大模型方面的长期积累，其核心技术架构由团队在2022年就提出并持续开展自主研发。（记者魏梦佳）

【纠错】

【责任编辑:陈听雨】

推荐阅读：
金蝶国际发布2023中期业绩，金蝶云·星辰持续高速增长
AI赋能智力运动新未来
从数字化到“数智化” 在杭州云栖大会感受数字技术新脉动
银联创新支付产品亮相进博会提供便利跨境支付服务
“她力量”撑起科技创新“半边天”
科好玩丨来，看这位“机器化学家”打算如何在火星上制氧
个人养老金落地满周年试点地区有望再扩围
新型可穿戴设备能“识音辨病”
第二十五届高交会集中展示科学与产业一体化发展创新路径
我国知识产权事业发展稳中提质

专题推荐：

我国自研视频大模型面向全球上线

相关推荐