搜索
  • 首页
  • 快讯
  • 资讯
    • 推荐
    • 财经
    • AI
    • 创新
    • 城市
    • 最新
    • 创投
    • 汽车
    • 科技
    • 专精特新
  • 直播
  • 视频
  • 专题
  • 活动
搜索
寻求报道
我要入驻
城市合作

试了下 Stable Video,我的建议是不如不用|AI 测评室

AI前线·2024-03-02 11:34
喜剧片 + 恐怖片 =AI 视频 ?

去年 11 月,人工智能初创公司 Stability AI 首次推出了 Stable Video,这款模型基于之前发布的 Stable Diffusion 文本转图片模型进行延伸,能够通过现有图片生成视频,是当时市面上少有的能够生成视频的 AI 模型之一。 

当时,Stability AI 在 GitHub 上发布了模型代码,并在 HuggingFace 上发布了权重,有硬件能力和相关技术的用户可以在本地下载和运行。

近日,Stable Video 正式开放公测,这对于那些没有强大的 GPU 或没有足够的技术能力来设置的人来说无疑是个好消息,而且内测期间的 Stable Video 还可以免费使用。另外,尽管大家都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测,因此 Stable Video 公测着实也吸引了一波关注。

那它的效果到底如何呢?

文生视频:恭喜及格 

相信很多人都见过 Sora 刚发布时候展示的这个 60 秒视频,无数人都被视频里场景的真实性震撼到了:

Sora 虽然没有面向公众开放,但其主创团队一直在 X 上发出最新生成的视频。Sora 作者 Tim Brooks 最新的一个视频甚至让好莱坞导演表示,直接搁置了自己影视工作室 8 亿美元的预告计划。

虽然 Sora 在视频生成上独树一帜,但之前在这个领域耕耘的公司并不甘心落后。首先,我们看看影响了 OpenAI GPT-4 进程的 Stability AI 能做到什么程度。

为避免提示词这个变量带来的影响,我们与上面 Sora 视频相同的提示词来生成视频。整个操作流程很简单:输入提示词后,它会生成四个相似的图片,从中选择一个后,再选择一个简单的效果后就可以生成视频了。

最后, Stable Video 生成的视频如下: 

我们把原来的提示词解构成以下 12 个要素:时尚女人、东京街道、霓虹灯、黑色皮夹克、红色长裙、黑色靴子、黑色钱包、太阳镜、口红、走路、反光道路和行人走动, Stable Video 完成了 8 个,“红色长裙、黑色靴子、黑色钱包、走路”四个没有完成,其中“红色长裙、黑色钱包”都发生了交叉理解,“黑色靴子和走路”完全没有体现。

从画面来看,人物乍看之下没有什么硬伤,镜头效果是在的,背景也做了虚化处理。但画面分辨率太低导致看起来就像是糊了,尤其是画面边缘部分。另外,人物的头发抠图感也比较重。

我们再看看另一家独角兽 Runway AI 用同一组提示词会生成什么样的视频。我们选择了免费的 Runway Gen-2 ……

同样,先看下提示词的完成度。“红色长裙、黑色靴子、黑色钱包、太阳镜、走路、行人走动”这 6 个要素没有完成,其中靴子颜色错了,其他的则是完全没有出现。

从画面看,这个视频着实缺乏真实感,很漫画风,整个环境跟选择的“电影效果”似乎没有任何关系。人物也很模糊,“口红”要素有些看不出来,关键的是那个“扭头”既突兀又吓人,整体观感不太好。

Pika 在去年 11 月正式发布 Pika 1.0 后风靡一时,其创始人郭文景也被媒体各种曝光。Pika 1.0 也被称作是 Runway Gen-2 的最强竞品。那对于现在的 Pika 来说,这段提示词能生成什么样的视频?我们也尝试了下:

提示词完成度方面,“红色长裙、黑色钱包、太阳镜、口红和走路”这 5 个要素没有完成,裙子长度和颜色错误,钱包颜色也错了,“太阳镜、口红、走路”则完全没有出现。

画面有些赛博朋克风,画面只有一个女人的背影,”太阳镜、口红”这些其实暗示了是人物正面,Pika 并没有 get 到这一点。另外,Pika 背景处理其实比 Stable Video、Runway 好一些,但路过的车是最大失误,行驶后的虚影没有处理好,可以看到 6 个车轮。

综合上面四个产品,我们针对生成的视频做了纬度评分:

在视频生成的速度方面,Stable Video 耗时相对较长,大概用了不到一分钟,Runway Gen-2、Pika 相对少一些。根据亲自体验了 Sora 的彭博社说法,Sora 的等待时间可能更久:

与使用 OpenAI 的 Dall-E 3 生成单个图像相比,Sora 还需要更多的时间和计算能力来生成每个视频。OpenAI 不会准确说明 Sora 处理每个请求需要多长时间,但 Peebles说这“绝对不是即时的”。“你甚至可以用等待的时间去吃个零食”,OpenAI 研究科学家 Bill Peebles 说道。

另外,对于 Sora 生成的视频质量,或许用户测试的随意测试的结果也不会像内部人员发出来的那么惊艳。在彭博社博实测 Sora 的视频里,也出现了明显的错误。

那么,大家认为这四个模型在文成视频方面的差距有多大呢?

另外,我们也测试了 Stable Video 的中文理解能力,结论是:千万不要用中文提示词!

我们用上述中文描述让Stable Video 生成一个视频,没有添加任何效果。结果,除了与“少女”关键词相关外,其他可以说是毫无关系。而且,最后一闪而过的头像,瞬间将视频变成了恐怖片现场。

图片转视频:一言难尽 

除了文字生成视频,Stable Video 也提供了图片生成方式。将图片转成视频的功能,在厂商宣传中会被包装成用于“视频制作、网页设计等领域”,那真的可以做到了吗?

我们在测评之前,就有人说尝试用自己的照片转成视频,结果发现有人脸的图都崩了。本来想着应该崩也崩不到哪里去吧,直到自己试了一下……

我们找了上面的图片(因为我的帅哥同事拒绝了我的出镜请求),并改成了官方给到的推荐尺寸。我们想象的场景是,Stable Video 可以让人的头发和后边的窗纱飘起来,但结果却被吓到了:人脸的扭曲程度太大了!

在把“相机”设置去掉,改成“轨道”后,也不行:

可以看出,视频生成质量跟那些效果设置其实没有关系,还是模型本身质量决定的。我们非常不推荐用人脸的图片转成视频,会被“惊喜”到。而且,喜欢照相的女孩子可能不会喜欢 Stable Video ~

那么,对于动物图片的生成效果如何呢?我们找了一张可爱的猫猫图,希望不要被“爆改”。

为了控制各种变量,这次我们什么效果都没有设置,图片尺寸也是推荐尺寸,结果却是:

画面里的猫猫动是动起来了,但是面部依然扭曲了。真是想说:还我可爱的猫猫!

没有人物的风景图可能是最后的倔强了。我们找了一张花草的图片尝试了下:

生成的视频是这样的:

花朵摇曳,虽然没有扭曲了,但总有一种假假的感觉,而且视频清晰度太低了,画面很糊。

整体来看,对于 Stable Video,我们还是不建议用有人像的图片生成视频,动物图片慎选,风景图可以尝试,但付费的话就要考虑下了。对于图片生成视频的应用,可能适合对视频质量要求不高的场景。

脑洞时刻:

在网上看到吐槽去年电视剧里各种神奇运镜的视频,这种感觉确实可以用一张图完成:

(开个玩笑,不针对任何人哈~~)

性价比?不好意思,也没有 

细心的读者可能发现,在生成设置的图片里,Stable Video 经常提到“宽高比”的问题。官方推荐的图片分辨率是 1024x576、576x1024 或 768x768。但是,官方从头到尾没有在操作过程里给到用户建议尺寸,所以我们是在几乎测试完成后才看到推荐尺寸,然后为了看效果有没有区别就又重新测试了一遍,结果是:毫无区别,只白白浪费了积分。

是的,Stable Video 虽然声称免费,但生成视频是消耗积分的。它给了每个用户 150 的初始积分,其中图片生成视频消耗 10 积分,文字生成视频消耗 11 积分。如果用户不使用文本生成的视频,官方则会将积分退回。另外,每个用户每天都会免费获得一些积分,但获得积分数额未来可能会变。

等这些积分消耗完之后,用户就到了付费阶段:10 美元(大约 72 元)可以生成 50 个视频,50 美元(大约 360 元)生成 300 个视频。

也就是说,70 多块钱可以生成 3 分钟多的视频,幸亏废片可以退,不然真的一点性价比都没有。

想了解更多可以查看:

https://www.stablevideo.com/faq

结束语 

不否认 Stability AI 官网呈现出来的效果确实也不错,但随手出片是远远做不到的。目测,文生视频比图片生视频的效果好一些,是有“1 积分的提效”。

总的来说,Stability AI 这次免费公测 Stable Video,看起来也像是在为商业化铺垫,想试水让大家为效果付费。但 Stable Video 现在呈现出来的效果,还是差点意思。

本文来自微信公众号 “AI前线”(ID:ai-front),作者:褚杏娟,36氪经授权发布。

+1
73

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
登录后参与讨论
提交评论0/1000
你可能也喜欢这些文章
OpenAI o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
最强卷王3个月进化9次!可灵AI上新1.5模型,国外网友:太疯狂
AI大模型站在十字路口,持续突破or陷入低谷?
一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法
不只是炒菜,AI正在全面渗透餐饮
OpenAI 将 o1 AI 模型扩展到企业和教育领域,与Anthropic直接竞争
Open o1不会“消灭”程序员
张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
售价高达100万的AI产品,有钱人排队求买,为什么?

最新文章推荐

又一芯片公司,被GPU改变命运 世界上第一个成功返老还童的男人 智氪 | 买现实、卖预期的A股会因海外降息而改变吗? LVMH/雅诗兰黛联投一香水品牌 张大奕,留在了10年前的网红时代 公话亭变身最小公路酒吧 不夜城上海有了新城市符号 耐克换帅不意外,为何职业经理人在运动品牌难有好结局?|BrandBeat 苹果、讯飞、腾讯同日宣布重磅消息,这一市场终于要爆了 OpenAI o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开 大手笔套现,巴菲特2个月减持570亿元!目前最好的投资是囤现金?伯克希尔囤积现金近2万亿元,此前已甩卖数千亿元苹果股票
AI前线
特邀作者

TA没有写简介,但内敛也是一种表达

最近内容

内部数百工程师可随意摄取 OpenAI 先进模型,OpenAI 前员工揭露:谏言即被开除,祈祷公司不报复
成立 5 年融资近 10 亿元 ,这家AI创企将被英伟达收入囊中,AI 大佬趣评:估值应该仅能让投资人回本
谷歌AI新应用:判断失业雇员是否有资格领取救济

下一篇

深圳情侣的90㎡复古之家:只做一室一厅,随时可以跳舞

三个案例展现个性化家居设计理念

2024-03-02

热门标签

雷雷 伽玛 职位分析 基尼系数 瘾君子 王野 瘦身 猛犸象 北京花店 运动医学 林宁 十年之约 京东家电专卖店 女性电影 陆风 江铃 云渲染 网络小说作家 曲线锯 鬼冢 鬼冢虎 鲍尔曼 2016西安草莓音乐节 场地出租 二元对立 生态学 消费贷款 天下秀 魅族真旗舰 赢商网
意见反馈
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

玻璃钢生产厂家大型玻璃钢雕塑盖碗宜兴商场春季美陈商场冬季美陈阳江商场雕塑玻璃钢山东城市标志玻璃钢雕塑辽阳人物玻璃钢雕塑定制河南超市商场美陈采购玻璃钢肖恩羊卡通雕塑泰安玻璃钢花盆安徽玻璃钢小羊动物雕塑张掖大型玻璃钢雕塑定做玻璃钢卡通杯子雕塑定制玻璃钢雕塑价格地铁出口连通商场如何做美陈江苏商场创意商业美陈理念福建玻璃钢卡通雕塑查询红色玻璃钢卡通雕塑规格长乐玻璃钢十二生肖雕塑长沙商商场美陈布置河南大型主题商场美陈怎么样江苏玻璃钢雕塑摆件厂家直销玻璃钢雕塑水果蔬菜玻璃钢雕塑爱心涂鸦花纹摆件重庆水果玻璃钢雕塑市场商场美陈制作过程注意事项青海景观玻璃钢雕塑宝鸡肖像玻璃钢人物雕塑广安玻璃钢人物雕塑价格江苏开业商场美陈供应武汉玻璃钢雕塑模具价格香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化