精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

谷歌 AI 生成視頻兩連發(fā):720p 高清 + 長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

來源:量子位

內(nèi)容生成 AI 進入視頻時代!

Meta 發(fā)布「用嘴做視頻」僅一周,谷歌 CEO 劈柴哥接連派出 兩名選手 上場競爭。

谷歌 AI 生成視頻兩連發(fā):720p 高清 + 長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

第一位 Imagen Video 與 Meta 的 Make-A-Video 相比突出一個 高清 ,能生成 1280*768 分辨率、每秒 24 幀的視頻片段。

谷歌 AI 生成視頻兩連發(fā):720p 高清 + 長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

另一位選手 Phenaki ,則能根據(jù) 200 個詞左右的提示語生成 2 分鐘以上的長鏡頭 ,講述一個完整的故事。

谷歌 AI 生成視頻兩連發(fā):720p 高清 + 長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

網(wǎng)友看過后表示,這一切進展實在太快了。

也有網(wǎng)友認為,這種技術(shù)一旦成熟,會沖擊短視頻行業(yè)。

那么,兩個 AI 具體有什么能力和特點,我們分別來看。

Imagen Video:理解藝術(shù)風(fēng)格與 3D 結(jié)構(gòu)

Imagen Video 同樣基于最近大火的擴散模型,直接繼承自 5 月份的圖像生成 SOTA 模型 Imagen。

除了分辨率高以外,還展示出三種特別能力。

首先它能理解并生成不同藝術(shù)風(fēng)格的作品,如 " 水彩畫 " 或者 " 像素畫 ",或者直接 " 梵高風(fēng)格 "。

它還能理解物體的 3D 結(jié)構(gòu),在旋轉(zhuǎn)展示中不會變形。

最后它還繼承了 Imagen 準確描繪文字的能力,在此基礎(chǔ)上僅靠簡單描述產(chǎn)生各種創(chuàng)意動畫,

這效果,直接當成一個視頻的片頭不過分吧?

除了應(yīng)用效果出色以外,研究人員表示其中用到的一些優(yōu)化技巧不光對視頻生成有效,可以泛化至一般擴散模型。

具體來說,Imagen Video 是一系列模型的集合。

語言模型部分是谷歌自家的 T5-XXL ,訓(xùn)練好后凍結(jié)住文本編碼器部分。

與負責(zé)從文本特征映射到圖像特征的 CLIP 相比,有一個關(guān)鍵不同:

語言模型只負責(zé)編碼文本特征,把文本到圖像轉(zhuǎn)換的工作丟給了后面的視頻擴散模型。

基礎(chǔ)模型,在生成圖像的基礎(chǔ)上以自回歸方式不斷預(yù)測下一幀,首先生成一個 48*24、每秒 3 幀的視頻。

接下來,一系列空間超分辨率(Spatial Super-Resolution)與時間超分辨率(Temporal Super-Resolution)模型接連對視頻做擴展處理。

所有 7 種擴散模型都使用了 v-prediction parameterization 方法,與傳統(tǒng)方法相比在視頻場景中可以避免顏色偏移。

這種方法擴展到一般擴散模型,還使樣本質(zhì)量指標的收斂速度更快。

此外還有 漸進式蒸餾 (Progressive Distillation),將每次迭代所需的采樣步驟減半,大大節(jié)省顯存消耗。

這些優(yōu)化技巧加起來,終于使生成高清視頻成為可能。

Phenaki:人人都能是 " 導(dǎo)演 "

Phenaki 的論文投了 ICLR 2023 會議,在一周前 Meta 發(fā)布 Make-a-video 的時候還是匿名雙盲評審狀態(tài)。

如今信息公開,原來研究團隊同樣來自谷歌。

在公開的信息中,Phenaki 展示了它交互生成視頻的能力,可以任意切換視頻的整體風(fēng)格:高清視頻 / 卡通,還能夠切換任意場景。

還可以向 Phenaki 輸入一個初始幀以及一個提示,便能生成一段視頻。

這都還是開胃小菜,Phenaki 真正的大招是: 講故事 ,它能夠生成 2 分鐘以上的長視頻,通過輸入長達 200 多個字符的系列提示來得到。

(那有了這個模型,豈不是人人都能當導(dǎo)演了?手動狗頭)

從文本提示到視頻, 計算成本高、高質(zhì)量文本視頻數(shù)據(jù)數(shù)量有限以及視頻長度可變 一直以來都是此類模型發(fā)展的難題。

以往的大多數(shù) AI 模型都是通過單一的提示來生成視頻,但若要生成一個長時間并且連貫的視頻這遠遠不夠。

而 Phenaki 則能生成 2 分鐘以上的視頻,并且還 具備故事情節(jié) ,這主要歸功于它能夠根據(jù) 一系列的提示 來生成視頻的能力。

具體來說,研究人員引入了一個新的因果模型來學(xué)習(xí)表示視頻: 將視頻視作圖像的一個時間序列。

這個模型基于 transformer,可以將視頻分解成離散的小表示,而分解視頻則是按照時間的因果順序來進行的。

再講通俗一點,就是通過空間 transformer 將單個提示進行編碼,隨后再用因果 transformer 將多個編碼好的提示串聯(lián)起來。

一個提示生成一段視頻,這樣一來,視頻序列便可以沿著提示中描述的時間序列將整個 " 故事 " 串在一起。

因為將視頻壓縮為離散的圖像序列,這樣也大大減少了 AI 處理標記視頻的數(shù)量,在一定程度上降低了模型的訓(xùn)練成本。

提到模型訓(xùn)練,和大型圖像系統(tǒng)一樣,Phenaki 也主要使用文本 - 圖像數(shù)據(jù)進行訓(xùn)練,此外,研究人員還用 1.4 秒,幀率 8FPS 的短視頻文本對 Phenaki 進行訓(xùn)練。

僅僅通過對大量圖像文本對以及少量視頻文本例子進行聯(lián)合訓(xùn)練,便能達到突破視頻數(shù)據(jù)集的效果。

Imagen Video 和 Phenaki,谷歌接連放出大招,從文本到視頻的 AI 發(fā)展勢頭迅猛。

值得一提的是,Imagen Video 一作表示,兩個團隊將合作進行下一步研究。

嗯,有的網(wǎng)友已經(jīng)等不及了。

One More Thing

出于安全和倫理的考慮,谷歌暫時不會發(fā)布兩個視頻生成模型的代碼或 Demo。

不過既然發(fā)了論文,出現(xiàn)開源復(fù)刻版本也只是時間問題。

畢竟當初 Imagen 論文出來沒幾個月,GitHub 上就出現(xiàn)了 Pytorch 版本。

另外 Stable Diffusion 背后的 StabilityAI 創(chuàng)始人兼 CEO 也說過,將發(fā)布比 Meta 的 Make-A-Video 更好的模型,而且是大家都能用上的那種。

當然,每次 AI 有了新進展后都會不可避免地碰到那個話題—— AI 會不會取代人類。

目前來說,一位影視行業(yè)的工作者表示還不到時候:

老實說,作為一個在電影行業(yè)工作了十年的人,這個話題令人沮喪。

在他看來,當前的視頻生成 AI 在外行看起來已經(jīng)足夠驚艷,不過業(yè)內(nèi)人士會認為 AI 還缺乏對每一個鏡頭的精細控制。

對于這個話題,StabilityAI 新任首席信息官 Daniel Jeffries 此前撰文表示,AI 最終會帶來更多的工作崗位。

如相機的發(fā)明雖然取代了大部分肖像畫家,但也創(chuàng)造了攝影師,還開辟了電影和電視這樣的全新產(chǎn)業(yè)。

5 年后再回看的話, 反對 AI 就像現(xiàn)在反對 Photoshop 一樣奇怪 ,AI 只不過是另一個工具。

Jeffries 稱未來是環(huán)境人工智能(Ambient AI)的時代,各個行業(yè)、各個領(lǐng)域都會在人工智能的加持下進行發(fā)展。

不過現(xiàn)在我們需要的是一個更開放的人工智能環(huán)境,也就是說:開源!

本文被轉(zhuǎn)載1次

首發(fā)媒體 砍柴網(wǎng) | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 无硅导热垫片-碳纤维导热垫片-导热相变材料厂家-东莞市盛元新材料科技有限公司 | 烟气在线监测系统_烟气在线监测仪_扬尘检测仪_空气质量监测站「山东风途物联网」 | 招商帮-一站式网络营销服务|互联网整合营销|网络推广代运营|信息流推广|招商帮企业招商好帮手|搜索营销推广|短视视频营销推广 | 炭黑吸油计_测试仪,单颗粒子硬度仪_ASTM标准炭黑自销-上海贺纳斯仪器仪表有限公司(HITEC中国办事处) | 河北码上网络科技|邯郸小程序开发|邯郸微信开发|邯郸网站建设 | 制样机-密封锤式破碎机-粉碎机-智能马弗炉-南昌科鑫制样 | 空气能采暖,热泵烘干机,空气源热水机组|设备|厂家,东莞高温热泵_正旭新能源 | CTAB,表面活性剂1631溴型(十六烷基三甲基溴化铵)-上海升纬化工原料有限公司 | 华溶溶出仪-Memmert稳定箱-上海协烁仪器科技有限公司 | 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | 烘箱-工业烘箱-工业电炉-实验室干燥箱 - 苏州华洁烘箱制造有限公司 | 安徽净化工程设计_无尘净化车间工程_合肥净化实验室_安徽创世环境科技有限公司 | 搜木网 - 木业全产业链交易平台,免费搜货、低价买货! | 自动部分收集器,进口无油隔膜真空泵,SPME固相微萃取头-上海楚定分析仪器有限公司 | 路面机械厂家| 药品冷藏箱厂家_低温冰箱_洁净工作台-济南欧莱博电子商务有限公司官网 | MVE振动电机_MVE震动电机_MVE卧式振打电机-河南新乡德诚生产厂家 | 卧涛科技有限公司科技项目申报公司|高新技术企业申报|专利申请 | 校服厂家,英伦校服定做工厂,园服生产定制厂商-东莞市艾咪天使校服 | 北京翻译公司_同传翻译_字幕翻译_合同翻译_英语陪同翻译_影视翻译_翻译盖章-译铭信息 | POS机办理_个人POS机免费领取 - 银联POS机申请首页 | 自动钻孔机-全自动数控钻孔机生产厂家-多米(广东)智能装备有限公司 | 热镀锌槽钢|角钢|工字钢|圆钢|H型钢|扁钢|花纹板-天津千百顺钢铁贸易有限公司 | 翅片管散热器价格_钢制暖气片报价_钢制板式散热器厂家「河北冀春暖气片有限公司」 | 温泉机设备|温泉小镇规划设计|碳酸泉设备 - 大连连邦温泉科技 | 企业彩铃制作_移动、联通、电信集团彩铃上传开通_彩铃定制_商务彩铃管理平台-集团彩铃网 | 铝镁锰板厂家_进口钛锌板_铝镁锰波浪板_铝镁锰墙面板_铝镁锰屋面-杭州军晟金属建筑材料 | 不锈钢螺丝,不锈钢螺栓,不锈钢标准件-江苏百德特种合金有限公司 交变/复合盐雾试验箱-高低温冲击试验箱_安奈设备产品供应杭州/江苏南京/安徽马鞍山合肥等全国各地 | 污水/卧式/潜水/钻井/矿用/大型/小型/泥浆泵,价格,参数,型号,厂家 - 安平县鼎千泵业制造厂 | 铝扣板-铝方通-铝格栅-铝条扣板-铝单板幕墙-佳得利吊顶天花厂家 elisa试剂盒价格-酶联免疫试剂盒-猪elisa试剂盒-上海恒远生物科技有限公司 | 深圳南财多媒体有限公司介绍 | 磁力链接搜索神器_BT磁力狗_CILIMAO磁力猫_高效磁力搜索引擎2024 | 珠海网站建设_响应网站建设_珠海建站公司_珠海网站设计与制作_珠海网讯互联 | 美缝剂_美缝剂厂家_美缝剂加盟-地老板高端瓷砖美缝剂 | 卓能JOINTLEAN端子连接器厂家-专业提供PCB接线端子|轨道式端子|重载连接器|欧式连接器等电气连接产品和服务 | 宠物店加盟_宠物连锁店_开宠物店-【派多格宠物】 | 玻璃钢格栅盖板|玻璃钢盖板|玻璃钢格栅板|树篦子-长沙川皖玻璃钢制品有限公司 | 西安烟道厂家_排气道厂家_包立管厂家「陕西西安」推荐西安天宇烟道 | 健康管理师报考条件,考试时间,报名入口—首页 | 膜结构_ETFE膜结构_膜结构厂家_膜结构设计-深圳市烨兴智能空间技术有限公司 | 二手色谱仪器,十万分之一分析天平,蒸发光检测器,电位滴定仪-湖北捷岛科学仪器有限公司 |