豆包视频生成模型Seedance2.0发布，豆包、即梦接入

字节跳动

2026-02-12 14:22

热点

2月12日，字节跳动官微发文表示，豆包视频生成模型Seedance2.0正式发布，现已全面接入豆包和即梦产品，并上线火山方舟体验中心，欢迎广大用户试用体验。

Seedance2.0较好地解决了物理规律遵循及长效一致性等难题，同时也赋予创作者前所未有的自由度，让视频生成质量和可控性达到专业生产场景要求。

目前，Seedance2.0限制了真人图像/视频作为主体参考。如需使用真人作为主体参考，须经本人验证或取得授权。

导演级操控，让视频生成“所想即所见”

稳定呈现复杂交互和运动：Seedance2.0在运动场景下的生成可用率达到业界SOTA水平，其在人物动作建模方面，有着自然连贯、遵循现实世界运动规律的显著优势。它能高保真地合成时序精密的复杂交互场景，也能在特写镜头中展现出高度逼真的细节与严密的物理逻辑，宛如实拍。

T2V prompt：竞技级双人花样滑冰现场。开场低机位跟随冰刀滑行，冰屑与反光细节清晰。进入旋转段，男选手轴线微偏出现失误，旋转节奏短暂塌陷。女选手迅速调整重心，眼神冷静并示意“Stay with me”，主动引导男选手重新对齐节奏。随后无缝衔接托举动作，线条干净稳定。高潮为同步跳跃组合，空中姿态笔直，落冰果断，音画完美对齐。女选手身着深蓝花滑裙，男选手为竞技运动装。整体呈现从紧张失误到冷静完成比赛的完整叙事，体现顶级双人花样滑冰中的技术能力与心理强度。

多模态全能参考：支持文字、图片、音频、视频四种模态混合输入，模型可参考输入素材中的构图、动作、运镜、特效、声音等元素，大幅提升创作自由度。

R2V prompt：@图片1女孩打破次元壁，连续穿越多幅名画世界，保留真实质感，油画世界呈现3D高饱和度动画风格。她站在@图片2的旋转星空下神情激动；接着好奇看着@图片3的情侣拥抱，情侣不好意思地用被子将头遮住；随后与@图片4戴珍珠耳环少女一起自拍；紧接着进入@图片5在两名武士中间穿过；与@图片6一起扮鬼脸呐喊；跑到@图片7蒙娜丽莎身旁，被摸头贴脸；在@图片8女人面前转身换装，二人互行礼；随后与@图片9中的梵高一起画画；最后背对镜头看夕阳，随即转身甜美一笑。对比度高，电影质感，转场丝滑无缝，人物鲜活。

指令遵循与可控性全面提升：Seedance2.0能精准还原复杂脚本，保持稳定的主体一致性。模型还具备一定的编导思维，分镜设计和运镜贴合叙事逻辑。此外，Seedance2.0新增了视频编辑和视频延长能力，每位用户都能像导演一样掌控全场。

R2VPrompt：延长视频，镜头跟拍骑棕马的橙衣男人，他加快速度跑到前方一棵开着橙色花朵的大树前，将树枝上的两朵花折下，随后其他人也陆续骑着马跑进镜头内。镜头推进拍摄这个橙衣男人翻身下马，镜头快速环绕他，他转身走向骑着白马的白衣女子，将花献给白衣女子。中国风仕女图风格，3D，欢快民乐，皮影风格，黑白橙色为主调。

高仿真沉浸音效同步生成：集成双声道立体声技术，可实现高仿真、沉浸式的音效生成。模型支持背景音乐、环境音效或人物解说等音频多轨并行输出，精准对齐画面节奏，更好地支持专业级视听内容创作。

T2V prompt：武侠风格视听大片，竹林里白衣剑客与蓑衣刀客对峙。镜头在两人之间缓慢推移，焦点在雨滴和剑柄之间切换，气氛压抑到极点，只能听见雨声。突然一道惊雷闪过，两人同时冲锋，侧拍镜头极速平移，捕捉泥浆飞溅的脚步。双兵相接瞬间画面切换为极慢动作，清晰展示刀剑震飞雨水形成的圆环激波，以及被剑气切断的竹叶。随后恢复常速两人背对背落地，蓑衣刀客的斗笠裂开，画面戛然而止。

广泛适配各类生产场景：无论是商业广告、影视特效，还是游戏动画、解说视频，模型均能提供高质量的生成效果。预计在2月中下旬，Seedance2.0的API服务将上线火山方舟，帮助企业客户更好地落地创意。

I2V prompt：画中人物心虚，眼睛左右看了看探出画框，快速地将手伸出画框拿起可乐喝了一口，并露出一脸满足的表情。这时传来脚步声，画中的人物赶紧将可乐放回原位，此时一位西部牛仔拿起杯子里的可乐走了。结尾镜头推进至纯黑背景下的顶光可乐特写，画面最下方出现艺术感字幕和旁白：“宜口可乐，不可不尝！”。

Seedance2.0评测：综合表现行业领先

为全面评估模型在多模态场景的综合能力，字节跳动Seed团队协同影视领域的专家，建立了覆盖音视频生成、参考及编辑场景的综合评测集及相关评测标准。

文生视频能力评测

图生视频能力评测

多模态参考生成评测

在各项评测中，Seedance2.0的综合表现达到行业领先水平。但与此同时，模型在细节稳定性、多人口型匹配、多主体一致性、文字还原精度和复杂编辑效果等方面仍有优化空间。

Seedance2.0还远不完美，其生成结果仍存在诸多瑕疵。我们将持续探索大模型与人类反馈的深度对齐，让更高效、更稳定、更具想象力的音视频生产工具，服务更多创作者。

快讯

编辑：周林

打开APP阅读全文