Bernini Video

用 Bernini Video 编辑 & 生成视频免费 & 开源

字节跳动出品的开源 AI 视频编辑器。用文字提示词编辑视频、从图片生成、本地运行 — 无需订阅、无水印、你的数据留在自己的机器上。基于 MLLM 语义规划与 DiT 渲染技术，Apache 2.0 协议发布。

免费 & 开源12+ 种视频编辑本地运行

选择模型

Prompt*

画幅比例

分辨率

时长

33-15

支持 3 到 15 秒。

Bernini Video 能做什么

一个统一模型，七种任务类型。编辑、生成、合成 — 全都可以通过文字提示词、图片或参考素材完成，无需切换多个工具。

视频编辑（V2V）— 12+ 种编辑类型

上传源视频，用自然语言描述你想做的改动，Bernini Video 在保留未编辑区域的同时精准应用修改。更换背景、添加或删除物体、变换风格、切换天气、调整表情、改变镜头角度、添加特效 — 12+ 种编辑操作在一个模型中完成。编辑质量对标一线闭源商业模型。

参考图引导编辑（RV2V）

将源视频与参考图片结合，实现精准编辑。上传一张参考图，告诉 Bernini 你想提取什么——物体外观、材质纹理、背景场景、艺术风格或天气氛围。DiT 渲染器保留源视频的 VAE 细节特征，确保未编辑区域保持像素级还原。无需反复试 prompt，一次得到你想要的效果。

文生视频（T2V）

将文字描述转化为视频片段。MLLM 语义规划器先生成构图、运动时序和物体关系的推理，DiT 渲染器再生成视频帧——因此复杂的多步骤提示词能够得到更精准的呈现。非常适合制作 B-roll 素材、概念可视化，或作为后续编辑的起始素材。

参考图生视频（R2V）

上传最多五张参考图片——角色、服装、背景、道具——Bernini Video 将它们合成为一段连贯统一的视频，每帧细节保持一致。用参考图锁定主体外观、材质色板或视觉风格，无需单纯依赖提示词工程。

内容插入（VV2V）

把产品图放在广告牌上。把 Logo 放在屏幕上。将一段视频合成到另一段中。Bernini Video 将图片或视频片段自然地融入现有画面——非常适合产品植入、品牌内容制作和场景合成，无需单独的视觉特效工具。

文生图 & 图片编辑（T2I/I2I）

Bernini Video 同样擅长静态图片——从文字提示词生成图片，或在单张 GPU 上编辑已有图片。相同的语义规划管线同时覆盖静态图和动态视频，你可以先用图片做概念设计，再升级到视频制作，全程无需切换工具。

三步开始编辑 & 生成

无需 GPU、无需安装、无需配置。在线使用或本地运行 — 由你选择。

1. 描述你想创建或编辑的内容

输入提示词，描述你想生成的视频或想应用的编辑。对于基于参考的任务，上传源图片或视频片段。Bernini Video 同时理解文字、图片和视频输入 — 用自然语言描述改动，让 MLLM 规划器搞定剩下的。

2. 选择任务并生成

从文生视频、视频编辑、参考图生视频或内容插入中选择。语义规划器生成目标场景，DiT 渲染器合成视频帧。调整提示词重新生成变体。也支持通过社区集成在 ComfyUI 中以节点化工作流使用。

3. 下载、使用、拥有你的视频

根据长度和分辨率，生成在几分钟内完成。下载结果 — 无水印、无使用限制。用于社交媒体、营销、客户项目或创意作品。Apache 2.0 协议完全覆盖商业用途。输出归你所有。

谁在使用 Bernini Video

从内容创作者到独立开发者到研究人员 — 任何需要 AI 视频编辑和生成但不想被订阅费绑架的人。

AI 内容创作者

你已经在制作 AI 生成内容，想超越基础的文字生成视频。Bernini Video 让你用文字提示词编辑已有素材 — 换表情、换背景、添加物体 — 无需从零重新渲染。一个统一工具同时搞定生成和编辑，不用拼凑多个付费服务。

开源开发者 & 独立黑客

你想在产品中加入 AI 视频能力，但承担不起 Runway 或 Pika API 每人每月 $12–35 的成本。Bernini Video 基于 Apache 2.0 协议 — 集成它、修改它、部署它。零单次成本、无 API 速率限制、完全掌控技术栈。基于开放基础构建（Wan 2.2、Qwen2.5-VL）。

注重隐私的视频专业人士

你处理的敏感素材不能离开你的机器 — 客户项目、内部沟通、未发布产品。Bernini Video 完全本地运行。无需云端上传、无第三方数据处理、无需担心隐私政策。你的数据留在你的硬件上。

AI 研究者 & 学生

你在从事视频生成、编辑或多模态 AI 研究，需要一个强大的开源基线。Bernini Video 在视频编辑基准测试上达到 SOTA，具有新颖的 MLLM 规划器 + DiT 渲染器架构。完整代码和权重开放 — 复现、修改、在已发表研究（arXiv 2605.22344）基础上构建。

ComfyUI 爱好者 & 工作流构建者

你在 ComfyUI 中构建自定义 AI 管线，想将视频编辑加入节点图。社区已集成 Bernini Video 节点 — 在你现有的工作流中将视频编辑与其他模型串联。将 Bernini 直接放入你的工作流，而不是再学一个新工具。

为什么选择 Bernini Video 而非闭源替代品

取代你 Runway 或 Pika 订阅的开源 AI 视频编辑器 — 免费、私密、完全可定制。

100% 免费。无订阅。无水印。

闭源工具每人每月收费 $12–35 还限制生成次数。Bernini Video 基于 Apache 2.0 — 下载权重、运行代码、硬件允许范围内无限生成。无需信用卡、无使用上限、输出无水印。商业项目、客户作品、产品视频 — 零许可费，永久免费。

你的数据永远不会离开你的机器

Runway、Pika 和 Kling 在它们的云端处理你的视频 — 意味着你的内容、客户素材和未发布项目都存在别人的服务器上。Bernini Video 完全本地运行。所有推理在你自己的硬件上完成。支持离线工作、保护敏感素材、无需担心第三方数据处理。

更智能的编辑 — 语义规划

大多数 AI 视频工具直接从提示词跳到像素 — 这就是它们在复杂指令上表现糟糕的原因。Bernini Video 插入了语义规划步骤：MLLM 在渲染任何一帧之前先对构图、物体关系和运动逻辑进行推理。结果：多步骤提示词的指令遵循更好，编辑时未改动区域的一致性更强。

为什么 Bernini Video 完全免费 — 而且永远免费

Apache 2.0 开源协议意味着零订阅费、完整模型访问权、以及在任何地方运行它的自由。

100% 免费 & 开源

Apache 2.0 协议。无月费、无需信用卡、无使用上限、无水印。下载权重、运行代码、修改它、部署它 — 全部零成本。对比闭源替代品每人每月 $12–35 的订阅费。

本地运行 — 你的数据留在你的机器上

所有推理在你自己的硬件上完成。你的视频永远不会触碰第三方服务器。支持离线工作、保护敏感素材、保持合规 — 无需云端上传，不会有人处理你的数据。

字节跳动出品，研究论文背书

由全球顶级 AI 研究机构之一开发并开源。论文发表于 arXiv（2605.22344），提供可复现的基准评测、Hugging Face 开放权重，以及视频编辑任务上的 SOTA 成绩。

技术亮点

支撑 Bernini Video 编辑与生成能力的架构与规格 — 研究支撑、开源、为实际工作负载构建。

MLLM 规划器 + DiT 渲染器

两阶段架构：MLLM 语义规划器（Qwen2.5-VL）先对构图、运动和物体关系进行推理，然后 DiT 渲染器（Wan 2.2）合成实际视频帧。这种分离意味着模型先思考再绘制——从而在复杂的多步骤提示词上实现更好的指令遵循。

SA-3D RoPE 编码

分段感知 3D RoPE 位置编码区分来自不同视觉输入的 token — 源视频、参考图和生成内容在整个扩散过程中保持清晰分离。这对编辑任务至关重要，因为未改动的区域必须保持像素级还原。

480p–720p，最高 24fps

可配置输出从 480p/16fps 到 720p/24fps。视频长度可通过帧数配置 — 每次生成通常 2 至 15 秒。单 GPU 处理图片任务；8 GPU 推荐用于全质量视频推理。

7 种任务类型，一个架构

T2V、I2V、V2V、RV2V、R2V、内容插入（VV2V）和 T2I/I2I — 全部七种任务通过同一统一 MLLM + DiT 管线运行。无需在不同任务之间切换模型或工具。

什么是 Bernini Video — 以及为什么它值得关注

Bernini Video 是字节跳动的开源 AI 视频编辑器和生成器 — 一个统一框架，在单个模型中处理视频编辑、文生视频、参考图生视频和内容插入。大多数 AI 视频工具让你不得不做选择：用一个工具从文字生成、用另一个编辑素材、再用第三个从图片生成动画。Bernini Video 在一个架构中完成所有这些任务，而且基于 Apache 2.0 完全免费。底层技术方面，基于 MLLM 的语义规划器（Qwen2.5-VL）先对场景进行推理——处理构图、物体关系和运动逻辑——然后基于 DiT 的渲染器（Wan 2.2）将计划转化为实际视频帧。这种两阶段方法意味着模型先在语义层面「理解」要生成什么，再动手「画」像素，从而在复杂提示词上实现更好的指令遵循，在编辑时未改动区域保持更强的一致性。Bernini 以 Wan 2.2 作为视频基础模型，在其上增加了语义级理解——所以它不仅能从文字生成视频，还能理解诸如「把背景换成山景」或「让角色微笑起来」这样的编辑指令，同时保留画面中其他所有内容不变。权重在 Hugging Face，代码在 GitHub，论文发表于 arXiv（2605.22344，2026 年 5 月）。

用文字提示词编辑视频（12+ 种编辑类型）、从文字生成、从参考图片创建 — 全部在一个统一模型中。

两阶段架构：MLLM 语义规划器先对场景进行推理，DiT 渲染器后生成帧 — 模型先思考再绘制。

Apache 2.0 开源：完全免费使用、自由修改、可商用部署、可本地运行 — 无订阅、无水印、无厂商锁定。

免费 & 开源 — 没有任何附加条件

Bernini Video 基于 Apache 2.0 协议。下载模型、本地运行、修改代码、商业使用 — 全部免费。托管在线服务提供免费试用积分，让你立即开始。

Basic

$15.9/月

解锁视频和图片生成。包含 1,200 积分，可生成约 600 张基础图片，每张消耗 2 积分。

每月包含 1,200 积分
最多可生成约 600 张基础图片，每张 2 积分
约 20 个标准视频，每个视频 60 积分
解锁高级视频和图片模型，包括 Kling、Veo、Seedance、LTX、Nano Banana、GPT Image 2 等
支持文生图、图生图、文生视频、图生视频、首尾帧视频和运动控制
包含完整商业使用权
24/7 客户支持
导出视频无水印

Pro

$29.9/月

适合稳定的图片和视频生产。包含 3,000 积分，可生成约 1,500 张基础图片，每张消耗 2 积分。

每月包含 3,000 积分
最多可生成约 1,500 张基础图片，每张 2 积分
约 50 个标准视频，每个视频 60 积分
解锁高级视频和图片模型，包括 Kling、Veo、Seedance、LTX、Nano Banana、GPT Image 2 等
支持文生图、图生图、文生视频、图生视频、首尾帧视频和运动控制
包含完整商业使用权
24/7 客户支持
导出视频无水印

Max

$69.9/月

适合团队和高频生产。包含 8,000 积分，可生成约 4,000 张基础图片，每张消耗 2 积分。

每月包含 8,000 积分
最多可生成约 4,000 张基础图片，每张 2 积分
约 133 个标准视频，每个视频 60 积分
解锁高级视频和图片模型，包括 Kling、Veo、Seedance、LTX、Nano Banana、GPT Image 2 等
支持文生图、图生图、文生视频、图生视频、首尾帧视频和运动控制
包含完整商业使用权
24/7 客户支持
导出视频无水印

加购

需要更多积分？

一次性购买，随时补充积分，可与任意方案配合使用。

$9.9600积分

30 天内有效600 积分可解锁高级模型。可生成约 300 张基础图片（每张 2 积分），或约 10 个标准视频。30 天内有效积分包同样可解锁高级视频和图片生成能力，仅积分数量和有效期不同

常见问题

Bernini Video 是什么？

Bernini Video 是字节跳动出品的开源 AI 视频编辑器和生成器，基于 Apache 2.0 协议发布。它将 MLLM 语义规划器与 DiT 渲染器结合，在单一统一模型中处理视频编辑（12+ 种编辑类型）、文生视频、参考图生视频和内容插入。可以理解为 Runway 或 Pika 的免费开源替代品，可以在你自己的机器上运行。

Bernini Video 真的免费吗？

是的，完全免费。Bernini Video 基于 Apache 2.0 协议开源。你可以下载代码和模型权重、本地运行、修改它们，甚至可以商用 — 全部零成本。无需月费订阅、无需按次付费、无需信用卡、输出无水印。

Bernini Video 与 Runway 相比如何？

Bernini Video 完全开源免费，而 Runway 每月收费 $12–35。在视频编辑质量方面，Bernini 达到一线水平，对标领先闭源商业模型（基于盲测人工评估）。Runway 拥有精致的 Web 界面和更强的原始文生视频视觉质量。Bernini 提供更强的编辑一致性、开放权重、本地部署带来的数据隐私，以及零许可费用。核心取舍：用纯生成任务上的一点视觉精细度，换取完全自由、隐私和零重复成本。

Bernini Video 能做哪些视频编辑？

Bernini Video 支持 12+ 种视频编辑类型：风格迁移、背景替换、物体添加和删除、天气变化、面部表情修改、镜头角度调整、焦点转移、时序推理编辑（跨时间动作）、角色互动变化、特效叠加、材质和纹理替换等 — 全部通过自然语言提示词或参考图片控制。

没有 GPU 可以使用 Bernini Video 吗？

可以 — 通过托管在线服务在云端运行模型，你可以在任何设备上生成和编辑视频，无需 GPU、无需安装、无需配置。自部署方面，图片任务需要 16GB+ 显存，全质量视频推理需要 8 张 GPU — 但你无需任何硬件就能在线开始使用。

Bernini Video 支持 ComfyUI 吗？

支持。ComfyUI 社区已通过社区 PR 集成了 Bernini Video。你可以在现有 ComfyUI 工作流中使用 Bernini 节点 — 串联视频编辑、结合放大模型、或构建自定义多模型管线。

我的视频数据在 Bernini Video 上安全吗？

是的 — 因为当你本地运行时，你的视频永远不会离开你的机器。与 Runway 或 Pika 等需要将内容上传到服务器的云端工具不同，Bernini Video 完全在你自己的硬件上运行。无需上传、无第三方数据处理、无隐私顾虑。初始模型下载后，甚至可以完全离线使用。

Bernini Video 可以用于商业项目吗？

可以。Apache 2.0 协议允许商业使用、修改和分发。你可以将 Bernini Video 集成到商业产品中、在自己的数据上微调、将输出用于客户项目、社交媒体、广告或产品视频 — 全部无需许可限制或版税支付。

Bernini Video 和 Wan 2.2 有什么区别？

Bernini Video 使用 Wan 2.2 作为其基础视频扩散模型，但在其上增加了基于 MLLM 的语义规划器。可以这样理解：Wan 2.2 处理像素级渲染，而 Bernini 的规划器理解你的语义意图 — 所以它能执行诸如「把背景换成山景但保持光照一致」这样的复杂编辑，而这正是纯文生视频模型难以做到的。如果你只需要基础文生视频，单独使用 Wan 2.2 就够了。如果你需要编辑精度和多模态输入，你需要 Bernini。

我用 Bernini Video 创作的视频归我所有吗？

是的。因为 Bernini Video 基于 Apache 2.0 协议发布，你生成的每个输出都归你所有。Bernini 不会给输出添加水印。将你的创作用于商业目的 — 社交媒体、广告、客户项目、产品视频 — 不受模型许可的限制。

本地运行 Bernini Video 需要什么 GPU 或显存？

图片任务（T2I/I2I）：单张 16GB+ 显存 GPU 即可流畅运行。480p 视频：16GB 显存 GPU 配合 distill LoRA 可获得合理速度。全质量 480p/16fps 视频推理需要 8 张 GPU（推荐 H100/H800）。720p 可行但速度明显更慢。查看 GitHub README 获取最新硬件建议，以及通过 ComfyUI 集成进行更便捷的本地部署。

Bernini Video 会给输出视频加水印吗？

不会。Bernini Video 不会给生成或编辑的视频添加任何水印。你创造的一切都是无水印的干净输出，完全归你所有。

准备好免费编辑 & 生成视频了吗？

立即开始使用 Bernini Video — 开源、无订阅、无水印。用文字提示词编辑视频、从图片生成、本地运行。Runway 和 Pika 的免费开源替代品。

免费在线试用