OpenAI研發Sora 「文字生成影片」超逼真

綜合報導  / 美國

位於美國加州的人工智慧公司OPENAI,在當地時間15日,發布影片生成的AI模型SORA,由於SORA植基於CHATGPT的語言生成模型,對語言的理解,已經達到了一定的層級,因此只要給它二、三十個關鍵字,組成的提示句,SORA就能透過演算法、生成長度約一分鐘,背景和主體精準,而且場景複雜的高畫質影片,由於SORA生成的影片,太逼真了,不但震撼生成AI的同業、也讓影視遊戲業者、和網路安全專家,難以置信,因為以後恐怕不再是眼見為憑。

三隻黃金獵犬寶寶在雪地裡戲雪玩耍,狗寶寶眼光還泛著萌呆的模樣。一位60歲的老人坐在巴黎咖啡館沉思,嘴角泛著微笑,眼神彷彿悟出人生的道理。一隻大麥町趴在威尼斯「布拉諾島」民宅的窗台前,輕巧地爬到另一個窗台。人工智慧公司OPENAI最近在社群平台X上發表這些影片,強調這些都是影片生成AI「SORA」製作的,不摻任何修正。同時在每一段影片開端之前,寫明用了哪些文字組成的提示句,才製成這段影片,希望邀請同好切磋、來測試SORA文字生成影片的能力。SORA的影片太逼真,令人難辨真假。

但憑著常識,人類一看一些影片還是能分辨出虛實的。例如男子坐在雲端上讀書,例如迪斯可舞步奔放的袋鼠,在咖啡杯裡激戰的兩艘戰船,又如一群紙飛機如候鳥一般飛入叢林,英媒第四頻道記者:「常言道「眼見為憑」,但在人工智慧(AI)當道的年代,你能分辨真實與人造之間的差異嗎。」印媒主播:「一名時髦女性走在東京街頭,四周閃爍著溫暖的霓紅燈與鮮活的招牌,她穿著黑色皮夾克紅色長裙,黑色長靴拎著黑色皮包。」

簡單的提示句讓SORA生成這樣的作品,不僅多了地上的水痕反射出街景的光影,SORA還作了分鏡處理,給女子臉上的黑斑來個特寫。顯見SORA處理影片的手法有導演的水準了。而SORA這段模擬空拍海浪拍岸的景緻,彷彿真有一台高解析的無人機攝影機在拍攝。SORA的作品逼真、穩定地幾乎沒有破綻,連無人機都自嘆不如。人工智慧公司OPENAI發表SORA原始影片時,完全是默片。

不料幾天後,就有人利用AI替影片配上背景音效,視聽感受完全不違和,鯨魚在天空遨遊,越野車加足馬力等等,絲毫不加修飾,SORA是OPENAI最新研發出來的影片生成AI,2022年11月30日,OPENAI剛發表天機器人CHATGPT,透過大型語言模型和強化學習與訓練,成果已經讓世人驚艷。時隔一年三個月,OPENAI再度發表SORA,以CHATGPT為基礎發展出的影片生成AI、製作「文生影片」。

既然以CHATGPT為基礎,SORA對文字的理解能力就遠超過其他生成式AI的競爭對手,因此SORA製作出來的影片長達一分鐘,遠超過對手的短短數秒,細緻度更勝過對手,SORA不僅能以文字生成影片,還能以圖片生成影片,以影片生成新影片,靠得就是優化文字與影像的演算法。它能把兩段不相關的影片合而為一。例如羅馬競技場上飛翔的無人機,變成了蝴蝶,飛入海中的珊瑚王國裡。

但是一些現實世界的物理現象,SORA還無法突破,例如一口咬下漢堡,漢堡上卻沒有牙齒的咬痕,例如籃球碰到籃框之後,不會反彈,卻是穿越籃框,又如這名運動員跑步時,跑的方向卻跟跑步機運行方向相反,記者:「創造者說若要SORA分辨左右有困難,遇到邏輯概念或找到彼此關聯性也有困難,例如這椅子在沙地上挪動,最後竟飄起來影片生成完全失敗,但我覺得這種超寫實的呈現依然很酷。」

儘管SORA製作的「文生影片」令人驚嘆,而且也還有一些缺點,但對影視和遊戲業的衝擊已立竿見影。特斯拉執行長馬斯克在社交平台上用網路「遊戲結束GG」的用語、留言說「GGHUMAN」也就是說他認為人類完蛋了。

2023年7月到11月,美國編劇作家演員美工特效等從業人員曾因勞資糾紛,發起史上最長的118天罷工。假以時日SORA發展更精進,這種罷工將不再具殺傷力,罷工者恐怕要失業了。業界預估SORA在一、兩年內發展成「通用人工智慧」,預估五年,一支不到五人的團隊就能用SORA文生影片的模型製作出一部票房收入超過五千萬美元的電影。OPENAI創始人山姆‧阿特曼:「當科技日新月異,我們能暸解人們對科技改變生活的焦慮。」但SORA問世使這種焦慮越來越具體化。

英國智財權律師帕維斯擁有市場主導力的大型企業,有財力爭取領先地位,即使在法律狀態不明的情況下亦然,記者VS.智財權律師帕維斯:「你意思是OPENAI基本上,大到難以控制了(是的)。」SORA顛覆世界、控制人類的威脅性目前難以預估。幸好SORA還在測試階段,並未開放給一般使用者。基於網路假消息滿天飛、仇恨新聞四處漫延,OPENAI正與網路安全專家與深偽科技專家合作,為SORA建立安全牆。

新聞來源:華視新聞



新聞關鍵字

加入Line好友