国内视频大模型Vidu发布,性能直接对标国际领先水平。4月27日,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型Vidu。Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT,支持文本生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还具备丰富想象力,具备多镜头生成、时空一致性高、遵循物理规律等技术特点。值得注意的是,Vidu能够虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。Vidu主要功能包括多镜头生成、模拟真实世界、保持时空一致性、丰富的想象力、理解中国元素等。这也是继Sora发布之后,全球率先取得重大突破的视频大模型,性能直接对标国际顶尖水平,并加速功能迭代中。

  Vidu的快速突破源于在U-ViT的技术长期积累与扎实的工程化能力。Vidu是由生数科技背后的清华团队支持的科研成果,团队在贝叶斯机器学习和多模态大模型具有长期积累和多项原创性成果。Vidu的核心技术U-ViT架构由团队于2022年9月提出,是全球首个Diffusion与Transformer融合的架构,早于Sora采用的DiT。U-ViT架构不同于图片插帧等处理长视频的
计算机:Vidu直接对标Sora,AI时代不可忽视视频革命
download

声明:本站所有报告及文章,如无特殊说明或标注,均为本站用户发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。