新大模型可根据文本生成高清视频
科技日报北京4月27日电 (记者何亮)27日,在中关村论坛未来人工智能先锋论坛上,清华大学联合北京生数科技有限公司(以下简称“生数科技”)正式发布中国首个原创全自研视频大模型――Vidu。论坛现场,清华大学教授、生数科技首席科学家朱军向与会者展示了Vidu生成的视频,包括行驶在崎岖道路上的汽车、戴珍珠耳环的猫、弹吉他的熊猫等。与此前震撼业界的Sora一样,Vidu能够根据文本描述直接生成高质量视频。
“长时长、高一致性、高动态性”是Vidu的显著特征。朱军表示,研发团队的核心技术在于采用U-ViT架构。它由Diffusion与Transformer两个模型融合而来,可支持一键生成长达16秒的高清视频内容。
除了在时长方面优势突出,Vidu在视频效果方面也实现显著提升。朱军介绍,Vidu能模拟真实物理世界,生成的视频不但场景细节复杂,而且符合物理规律,例如合理的光影效果、细腻的人物表情等。Vidu还具有丰富的想象力,能生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。此外,Vidu可理解多镜头语言,生成的视频不再局限于简单的推、拉、移等固定镜头,而是围绕同一主体实现远景、中景、近景、特写等不同镜头的切换,甚至能直接生成长镜头、追焦、转场等效果,给视频注入丰富的镜头表达。Vidu还独具文化特色,能很好理解中国元素,生成熊猫、龙等中国元素的视频。
值得一提的是,论坛上展示的视频都是从头到尾连续生成,没有明显的插帧现象。朱军说,与Sora一样,Vidu在文本到视频的转换过程中直接且连续,而且在底层算法上,是由单一模型完全端到端生成,不涉及插帧和其他多步骤处理。
随便看看:
相关推荐:
- [资讯]青海省水井巷集团周报(2023年第41期)
- [资讯]青海省水井巷集团周报(2023年第50期)
- [资讯]青海省水井巷集团周报(2023年第45期)
- [资讯]为何神农架深处被列为禁区?除“野人”外,三种神秘现象至今无解
- [资讯]3月29日,玉米走跌小麦上涨,生猪鸡蛋价格“飘绿”,发生了啥
- [资讯]盘前必读丨孟晚舟将亮相华为年报发布会,中石化去年业绩创近十年
- [资讯]预警升级!3月25日生猪、猪肉价格“齐上涨”,猪价冲高回落
- [资讯]PCB行业龙头大战正酣,深南电路营收激增毛利率却下跌?
- [资讯]波音737一架5亿元,在它的使用寿命内能回本吗?不只机票能赚
- [资讯]华为公开利用唇动特征解锁设备专利 口罩:那我走?
网友评论:
推荐使用友言、多说、畅言(需备案后使用)等社会化评论插件