可灵大模型简介:
可灵大模型是快手AI团队自研的一款视频生成大模型,它基于快手在视频技术方面的多年积累,采用类似Sora的技术路线,并结合多项自研技术创新。这个模型具备强大的视频创作能力,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。
数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。
可灵大模型的主要功能特点
- 合理运动生成:可灵大模型能够生成大幅度的合理运动。它采用了3D时空联合注意力机制,更好地建模视频中的复杂时空运动。例如,宇航员在月球上奔跑的画面,动作流畅且符合运动规律。
- 模拟物理世界特性:得益于自研模型架构和Scaling Law,可灵大模型构建了一个无限逼近现实的想象空间。它能够生成符合物理规律的视频,包括光影反射、重力影响下的流体运动等。
- 概念组合能力和想象力:凭借对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面。例如,熊猫吉他手坐在湖边弹吉他唱歌的想象场景。
- 高分辨率视频生成:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的宽高比。这使其在短视频领域有广泛的应用。
主要优势
- 生成大幅度的合理运动:可灵大模型采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动。因此,它不仅能够生成较大幅度的运动,还更符合客观运动规律,真正让想象力动起来。例如,一个低角度镜头展现月球表面上的宇航员奔跑,镜头慢慢抬升,我们可以看到宇航员跑步的动作流畅轻盈,步态和影子的运动合理恰当。
- 模拟真实物理世界的特性:得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵大模型为我们构建起了一个无限逼近现实的想象空间。无论是真实世界的光影反射、重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。例如,一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,一口咬下去,汉堡被咬掉一个大大的缺口,并在视频中一直保持。
- 强大的概念组合能力和想象力:凭借模型对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面,让创意触手可及。例如,一个湖边的想象场景中,熊猫吉他手坐在湖边弹着吉他唱着歌。
- 灵活的输出设置:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的输出视频宽高比。这使得用户可以根据需要自由调整视频的宽高比,以适应不同的播放平台和设备。
话不多说,接下来就带大家欣赏一下可灵的大作~
可灵不但在想象上天马行空,在描绘运动时又能做到符合真实的运动规律,复杂、大幅度的时空运动也能准确刻画。
比如这个在公路上高速奔跑的老虎,不仅画面连贯,随镜头角度的变化合理,老虎四肢的动作协调,而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。
还有宇航员在月球上奔跑的画面,动作流畅,步态和影子的运动合理恰当,太绝了。
除了运动,可灵大模型还能模拟真实物理世界特性,生成的视频更符合物理规律。
在这段倒牛奶的视频中,力学方面的重力规律、液面的上升都符合现实,连倒液体时泡沫一直在最上层的特性也考虑到了:
还有光学上的反射规律也考虑到了,注意看这只弹钢琴的猫猫,光滑表面上影子里的猫爪和琴键,都在随着本体同步变化。
另外,与真实物理世界的交互,也能被真实反映——下面视频中小男孩吃汉堡的生成视频中,一口咬下去,齿印一直都在,小男孩享受吃汉堡的享受过程宛如就在眼前。
要知道,符合物理规律对于大模型来说还是相当困难的事,连Sora也不能完全做好。
比如同样是吃汉堡这个场景,Sora生成的视频不仅有人手只有三根手指这样的槽点,咬合位置与汉堡上的咬痕也并不匹配……
不做“画饼”大模型,应用才是硬道理
大模型行业“卷”到今天,我们见证了太多技术的高光时刻,但技术突破的初心仍然还是应用。
快手可灵视频生成模型,诞生于短视频头部厂商,也持续面向应用在探索。非常值得一提的是,可灵大模型是发布即上线,不画饼!不画饼!不画饼!
可灵的文生视频模型,已在快影APP中正式开启邀测,目前开放的版本支持720P视频生成,竖版视频生成能力也即将开放。
顺便再做个剧透,基于可灵大模型的图生视频功能,也将于近期与用户见面。
实际上,作为头部视频厂商,快手在大模型热潮之中也动作迅速,此前就曾相继推出语言模型和文生图模型。
基于这些模型,AI文案、AI生图,AI生视频,以及更多AI创作功能,都已相继在快手和快影APP中上线。
算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术,为可灵大模型积累了深厚的技术沉淀。
现在,快手完整的文生视频功能终于华丽登场,我们期待快手作为一家拥有独特场景优势和广泛应用场景的短视频赛道巨头,能够率先把视频生成能力在短视频场景中落地生花。
如果你对AI视频创作感兴趣,不妨到快影APP中一探究竟。
快影—快手旗下一款视频拍摄、剪辑和制作工具,让用户在手机上就能轻轻松松完成视频编辑和视频创意,制作出令人惊艳的趣味视频。
数据评估
关于可灵大模型:快手AI团队自研视频生成大模型特别声明
本站顺为导航提供的可灵大模型:快手AI团队自研视频生成大模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由顺为导航实际控制,在2024年9月14日 下午8:02收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,顺为导航不承担任何责任。
相关导航
牛学长文件修复工具是一款一款专业的数据恢复软件。不仅提供了基本的文件修复功能,还引入了AI技术来增强视频和图片的质量。这款工具可以将模糊的视频通过AI增强技术升级到超清4K...
Dream Machine
Dream Machine是一款由Luma AI推出的AI视频生成模型,能够直接从文本和图像快速生成高质量的逼真视频。可以在120秒内生成120帧视频,具备流畅的运动、电影摄影和戏剧效果。它理解...
天壤小白
天壤小白,为开发者和零编程...
怪兽AI知识库大模型
企业知识库大模型 + 智能的AI问答机器人,零代码搭建企业知识库平台,团队多人协同与权限管理,智能回复。
一帧秒创-智能AI数字人内容生成平台
一帧秒创是基于新壹大模型及秒创AIGC引擎的智能AI内容生成平台,包含AI数字人、AI帮写、AI视频、AI作画等AIGC工具,可将百家号、公众号、头条号、搜狐号、新浪微博、小红书等文章一键转视频,一键生成数字人播报视频,为企业及自媒体提供一站式视频生产,全面提升内容创作效率。
Autoshorts.AI
AutoShorts.AI 是一个 AI 驱动的平台,专门用于生成和自动发布无面短视频。它可以将主题和提示转换成简短的垂直视频,并自动发布到 YouTube 和 TikTok。其主要功能包括视频生成、...
Topview.ai
Topview.ai是一款在线AI视频编辑工具,可一键将您的链接或媒体资产转换为病毒视频,由 Youtube & Tiktok 和 Facebook 广告库提供支持,通过逼真的 AI 头像增强视频。它基于GPT...
巨日禄AI故事绘图,AI漫画推文小说推文授权,AI绘画AI视频文生视频
一站式一键生成AI漫画推文神器,免费体验,免费小说推文授权平台;AI绘画文生图、AI视频文生视频、文本转视频、AI漫画创作平台;自媒体、漫剪、小说漫画推文工具教程
暂无评论...