可灵大模型简介:
可灵大模型是快手AI团队自研的一款视频生成大模型,它基于快手在视频技术方面的多年积累,采用类似Sora的技术路线,并结合多项自研技术创新。这个模型具备强大的视频创作能力,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。
数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。
可灵大模型的主要功能特点
- 合理运动生成:可灵大模型能够生成大幅度的合理运动。它采用了3D时空联合注意力机制,更好地建模视频中的复杂时空运动。例如,宇航员在月球上奔跑的画面,动作流畅且符合运动规律。
- 模拟物理世界特性:得益于自研模型架构和Scaling Law,可灵大模型构建了一个无限逼近现实的想象空间。它能够生成符合物理规律的视频,包括光影反射、重力影响下的流体运动等。
- 概念组合能力和想象力:凭借对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面。例如,熊猫吉他手坐在湖边弹吉他唱歌的想象场景。
- 高分辨率视频生成:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的宽高比。这使其在短视频领域有广泛的应用。
主要优势
- 生成大幅度的合理运动:可灵大模型采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动。因此,它不仅能够生成较大幅度的运动,还更符合客观运动规律,真正让想象力动起来。例如,一个低角度镜头展现月球表面上的宇航员奔跑,镜头慢慢抬升,我们可以看到宇航员跑步的动作流畅轻盈,步态和影子的运动合理恰当。
- 模拟真实物理世界的特性:得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵大模型为我们构建起了一个无限逼近现实的想象空间。无论是真实世界的光影反射、重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。例如,一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,一口咬下去,汉堡被咬掉一个大大的缺口,并在视频中一直保持。
- 强大的概念组合能力和想象力:凭借模型对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面,让创意触手可及。例如,一个湖边的想象场景中,熊猫吉他手坐在湖边弹着吉他唱着歌。
- 灵活的输出设置:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的输出视频宽高比。这使得用户可以根据需要自由调整视频的宽高比,以适应不同的播放平台和设备。
话不多说,接下来就带大家欣赏一下可灵的大作~
可灵不但在想象上天马行空,在描绘运动时又能做到符合真实的运动规律,复杂、大幅度的时空运动也能准确刻画。
比如这个在公路上高速奔跑的老虎,不仅画面连贯,随镜头角度的变化合理,老虎四肢的动作协调,而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。
还有宇航员在月球上奔跑的画面,动作流畅,步态和影子的运动合理恰当,太绝了。
除了运动,可灵大模型还能模拟真实物理世界特性,生成的视频更符合物理规律。
在这段倒牛奶的视频中,力学方面的重力规律、液面的上升都符合现实,连倒液体时泡沫一直在最上层的特性也考虑到了:
还有光学上的反射规律也考虑到了,注意看这只弹钢琴的猫猫,光滑表面上影子里的猫爪和琴键,都在随着本体同步变化。
另外,与真实物理世界的交互,也能被真实反映——下面视频中小男孩吃汉堡的生成视频中,一口咬下去,齿印一直都在,小男孩享受吃汉堡的享受过程宛如就在眼前。
要知道,符合物理规律对于大模型来说还是相当困难的事,连Sora也不能完全做好。
比如同样是吃汉堡这个场景,Sora生成的视频不仅有人手只有三根手指这样的槽点,咬合位置与汉堡上的咬痕也并不匹配……
不做“画饼”大模型,应用才是硬道理
大模型行业“卷”到今天,我们见证了太多技术的高光时刻,但技术突破的初心仍然还是应用。
快手可灵视频生成模型,诞生于短视频头部厂商,也持续面向应用在探索。非常值得一提的是,可灵大模型是发布即上线,不画饼!不画饼!不画饼!
可灵的文生视频模型,已在快影APP中正式开启邀测,目前开放的版本支持720P视频生成,竖版视频生成能力也即将开放。
顺便再做个剧透,基于可灵大模型的图生视频功能,也将于近期与用户见面。
实际上,作为头部视频厂商,快手在大模型热潮之中也动作迅速,此前就曾相继推出语言模型和文生图模型。
基于这些模型,AI文案、AI生图,AI生视频,以及更多AI创作功能,都已相继在快手和快影APP中上线。
算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术,为可灵大模型积累了深厚的技术沉淀。
现在,快手完整的文生视频功能终于华丽登场,我们期待快手作为一家拥有独特场景优势和广泛应用场景的短视频赛道巨头,能够率先把视频生成能力在短视频场景中落地生花。
如果你对AI视频创作感兴趣,不妨到快影APP中一探究竟。
快影—快手旗下一款视频拍摄、剪辑和制作工具,让用户在手机上就能轻轻松松完成视频编辑和视频创意,制作出令人惊艳的趣味视频。
数据评估
关于可灵大模型:快手AI团队自研视频生成大模型特别声明
本站顺为导航提供的可灵大模型:快手AI团队自研视频生成大模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由顺为导航实际控制,在2024年9月14日 下午8:02收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,顺为导航不承担任何责任。
相关导航
山海大模型,拥有丰富的知识...
YouDub-Webui
YouDub-webui是一款开源的多语言ai配音和视频翻译工具,它提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。
零一万物
零一万物是一家由李开复博士...
Giga视频超级工厂
Giga视频超级工厂是一款基于腾讯千亿级大模型的智能化短视频批量生产平台。它通过专属精调,聚焦媒体和电商行业,以生产线方式进行短视频量产。Giga视频超级工厂能够快速分析新闻...
Morph Studio
Morph Studio是集AI文生视频,AI图生视频,AI视频风格转换等多合一视频制作平台,专为创作者和营销人员设计。通过简单的文本输入,用户可以生成高分辨率、最长7秒的短视频。提供多...
ReelCraft AI:免费的AI视频制作工具,轻松制作动画视频
ReelCraft AI是一个免费的AI视频制作工具,它可以帮助用户通过输入文字快速制作专业的动画视频。这个工具能够自动创建短视频,包括故事场景、角色和旁白。用户只需要输入一个故事...
星火绘镜
星火绘镜是一款由科大讯飞推出的AI短视频创作平台。这个平台允许用户轻松地从文字描述生成短视频内容,将文本转换为视频分镜,并扩展成完整的短视频。它特别适合需要快速将创意或...
Topview.ai
Topview.ai是一款在线AI视频编辑工具,可一键将您的链接或媒体资产转换为病毒视频,由 Youtube & Tiktok 和 Facebook 广告库提供支持,通过逼真的 AI 头像增强视频。它基于GPT...
暂无评论...