试了下 Stable Video，我的建议是不如不用｜AI 测评室

AI前线·2024-03-02 11:34

喜剧片 + 恐怖片 =AI 视频？

去年 11 月，人工智能初创公司 Stability AI 首次推出了 Stable Video，这款模型基于之前发布的 Stable Diffusion 文本转图片模型进行延伸，能够通过现有图片生成视频，是当时市面上少有的能够生成视频的 AI 模型之一。

当时，Stability AI 在 GitHub 上发布了模型代码，并在 HuggingFace 上发布了权重，有硬件能力和相关技术的用户可以在本地下载和运行。

近日，Stable Video 正式开放公测，这对于那些没有强大的 GPU 或没有足够的技术能力来设置的人来说无疑是个好消息，而且内测期间的 Stable Video 还可以免费使用。另外，尽管大家都在关注 Sora，但有人估计至少 Sora 还需要三个月才能开始内测，因此 Stable Video 公测着实也吸引了一波关注。

那它的效果到底如何呢？

文生视频：恭喜及格

相信很多人都见过 Sora 刚发布时候展示的这个 60 秒视频，无数人都被视频里场景的真实性震撼到了：

Sora 虽然没有面向公众开放，但其主创团队一直在 X 上发出最新生成的视频。Sora 作者 Tim Brooks 最新的一个视频甚至让好莱坞导演表示，直接搁置了自己影视工作室 8 亿美元的预告计划。

虽然 Sora 在视频生成上独树一帜，但之前在这个领域耕耘的公司并不甘心落后。首先，我们看看影响了 OpenAI GPT-4 进程的 Stability AI 能做到什么程度。

为避免提示词这个变量带来的影响，我们与上面 Sora 视频相同的提示词来生成视频。整个操作流程很简单：输入提示词后，它会生成四个相似的图片，从中选择一个后，再选择一个简单的效果后就可以生成视频了。

最后， Stable Video 生成的视频如下：

我们把原来的提示词解构成以下 12 个要素：时尚女人、东京街道、霓虹灯、黑色皮夹克、红色长裙、黑色靴子、黑色钱包、太阳镜、口红、走路、反光道路和行人走动， Stable Video 完成了 8 个，“红色长裙、黑色靴子、黑色钱包、走路”四个没有完成，其中“红色长裙、黑色钱包”都发生了交叉理解，“黑色靴子和走路”完全没有体现。

从画面来看，人物乍看之下没有什么硬伤，镜头效果是在的，背景也做了虚化处理。但画面分辨率太低导致看起来就像是糊了，尤其是画面边缘部分。另外，人物的头发抠图感也比较重。

我们再看看另一家独角兽 Runway AI 用同一组提示词会生成什么样的视频。我们选择了免费的 Runway Gen-2 ……

同样，先看下提示词的完成度。“红色长裙、黑色靴子、黑色钱包、太阳镜、走路、行人走动”这 6 个要素没有完成，其中靴子颜色错了，其他的则是完全没有出现。

从画面看，这个视频着实缺乏真实感，很漫画风，整个环境跟选择的“电影效果”似乎没有任何关系。人物也很模糊，“口红”要素有些看不出来，关键的是那个“扭头”既突兀又吓人，整体观感不太好。

Pika 在去年 11 月正式发布 Pika 1.0 后风靡一时，其创始人郭文景也被媒体各种曝光。Pika 1.0 也被称作是 Runway Gen-2 的最强竞品。那对于现在的 Pika 来说，这段提示词能生成什么样的视频？我们也尝试了下：

提示词完成度方面，“红色长裙、黑色钱包、太阳镜、口红和走路”这 5 个要素没有完成，裙子长度和颜色错误，钱包颜色也错了，“太阳镜、口红、走路”则完全没有出现。

画面有些赛博朋克风，画面只有一个女人的背影，”太阳镜、口红”这些其实暗示了是人物正面，Pika 并没有 get 到这一点。另外，Pika 背景处理其实比 Stable Video、Runway 好一些，但路过的车是最大失误，行驶后的虚影没有处理好，可以看到 6 个车轮。

综合上面四个产品，我们针对生成的视频做了纬度评分：

在视频生成的速度方面，Stable Video 耗时相对较长，大概用了不到一分钟，Runway Gen-2、Pika 相对少一些。根据亲自体验了 Sora 的彭博社说法，Sora 的等待时间可能更久：

与使用 OpenAI 的 Dall-E 3 生成单个图像相比，Sora 还需要更多的时间和计算能力来生成每个视频。OpenAI 不会准确说明 Sora 处理每个请求需要多长时间，但 Peebles说这“绝对不是即时的”。“你甚至可以用等待的时间去吃个零食”，OpenAI 研究科学家 Bill Peebles 说道。

另外，对于 Sora 生成的视频质量，或许用户测试的随意测试的结果也不会像内部人员发出来的那么惊艳。在彭博社博实测 Sora 的视频里，也出现了明显的错误。

那么，大家认为这四个模型在文成视频方面的差距有多大呢？

另外，我们也测试了 Stable Video 的中文理解能力，结论是：千万不要用中文提示词！

我们用上述中文描述让Stable Video 生成一个视频，没有添加任何效果。结果，除了与“少女”关键词相关外，其他可以说是毫无关系。而且，最后一闪而过的头像，瞬间将视频变成了恐怖片现场。

图片转视频：一言难尽

除了文字生成视频，Stable Video 也提供了图片生成方式。将图片转成视频的功能，在厂商宣传中会被包装成用于“视频制作、网页设计等领域”，那真的可以做到了吗？

我们在测评之前，就有人说尝试用自己的照片转成视频，结果发现有人脸的图都崩了。本来想着应该崩也崩不到哪里去吧，直到自己试了一下……

我们找了上面的图片（因为我的帅哥同事拒绝了我的出镜请求），并改成了官方给到的推荐尺寸。我们想象的场景是，Stable Video 可以让人的头发和后边的窗纱飘起来，但结果却被吓到了：人脸的扭曲程度太大了！

在把“相机”设置去掉，改成“轨道”后，也不行：

可以看出，视频生成质量跟那些效果设置其实没有关系，还是模型本身质量决定的。我们非常不推荐用人脸的图片转成视频，会被“惊喜”到。而且，喜欢照相的女孩子可能不会喜欢 Stable Video ～

那么，对于动物图片的生成效果如何呢？我们找了一张可爱的猫猫图，希望不要被“爆改”。

为了控制各种变量，这次我们什么效果都没有设置，图片尺寸也是推荐尺寸，结果却是：

画面里的猫猫动是动起来了，但是面部依然扭曲了。真是想说：还我可爱的猫猫！

没有人物的风景图可能是最后的倔强了。我们找了一张花草的图片尝试了下：

生成的视频是这样的：

花朵摇曳，虽然没有扭曲了，但总有一种假假的感觉，而且视频清晰度太低了，画面很糊。

整体来看，对于 Stable Video，我们还是不建议用有人像的图片生成视频，动物图片慎选，风景图可以尝试，但付费的话就要考虑下了。对于图片生成视频的应用，可能适合对视频质量要求不高的场景。

脑洞时刻：

在网上看到吐槽去年电视剧里各种神奇运镜的视频，这种感觉确实可以用一张图完成：

（开个玩笑，不针对任何人哈～～）

性价比？不好意思，也没有

细心的读者可能发现，在生成设置的图片里，Stable Video 经常提到“宽高比”的问题。官方推荐的图片分辨率是 1024x576、576x1024 或 768x768。但是，官方从头到尾没有在操作过程里给到用户建议尺寸，所以我们是在几乎测试完成后才看到推荐尺寸，然后为了看效果有没有区别就又重新测试了一遍，结果是：毫无区别，只白白浪费了积分。

是的，Stable Video 虽然声称免费，但生成视频是消耗积分的。它给了每个用户 150 的初始积分，其中图片生成视频消耗 10 积分，文字生成视频消耗 11 积分。如果用户不使用文本生成的视频，官方则会将积分退回。另外，每个用户每天都会免费获得一些积分，但获得积分数额未来可能会变。

等这些积分消耗完之后，用户就到了付费阶段：10 美元（大约 72 元）可以生成 50 个视频，50 美元（大约 360 元）生成 300 个视频。