OpenAI研發Sora　「文字生成影片」超逼真

綜合報導 / 美國

位於美國加州的人工智慧公司OPENAI，在當地時間15日，發布影片生成的AI模型SORA，由於SORA植基於CHATGPT的語言生成模型，對語言的理解，已經達到了一定的層級，因此只要給它二、三十個關鍵字，組成的提示句，SORA就能透過演算法、生成長度約一分鐘，背景和主體精準，而且場景複雜的高畫質影片，由於SORA生成的影片，太逼真了，不但震撼生成AI的同業、也讓影視遊戲業者、和網路安全專家，難以置信，因為以後恐怕不再是眼見為憑。

三隻黃金獵犬寶寶在雪地裡戲雪玩耍，狗寶寶眼光還泛著萌呆的模樣。一位60歲的老人坐在巴黎咖啡館沉思，嘴角泛著微笑，眼神彷彿悟出人生的道理。一隻大麥町趴在威尼斯「布拉諾島」民宅的窗台前，輕巧地爬到另一個窗台。人工智慧公司OPENAI最近在社群平台X上發表這些影片，強調這些都是影片生成AI「SORA」製作的，不摻任何修正。同時在每一段影片開端之前，寫明用了哪些文字組成的提示句，才製成這段影片，希望邀請同好切磋、來測試SORA文字生成影片的能力。SORA的影片太逼真，令人難辨真假。

但憑著常識，人類一看一些影片還是能分辨出虛實的。例如男子坐在雲端上讀書，例如迪斯可舞步奔放的袋鼠，在咖啡杯裡激戰的兩艘戰船，又如一群紙飛機如候鳥一般飛入叢林，英媒第四頻道記者：「常言道「眼見為憑」，但在人工智慧（AI）當道的年代，你能分辨真實與人造之間的差異嗎。」印媒主播：「一名時髦女性走在東京街頭，四周閃爍著溫暖的霓紅燈與鮮活的招牌，她穿著黑色皮夾克紅色長裙，黑色長靴拎著黑色皮包。」

簡單的提示句讓SORA生成這樣的作品，不僅多了地上的水痕反射出街景的光影，SORA還作了分鏡處理，給女子臉上的黑斑來個特寫。顯見SORA處理影片的手法有導演的水準了。而SORA這段模擬空拍海浪拍岸的景緻，彷彿真有一台高解析的無人機攝影機在拍攝。SORA的作品逼真、穩定地幾乎沒有破綻，連無人機都自嘆不如。人工智慧公司OPENAI發表SORA原始影片時，完全是默片。

不料幾天後，就有人利用AI替影片配上背景音效，視聽感受完全不違和，鯨魚在天空遨遊，越野車加足馬力等等，絲毫不加修飾，SORA是OPENAI最新研發出來的影片生成AI，2022年11月30日，OPENAI剛發表聊天機器人CHATGPT，透過大型語言模型和強化學習與訓練，成果已經讓世人驚艷。時隔一年三個月，OPENAI再度發表SORA，以CHATGPT為基礎發展出的影片生成AI、製作「文生影片」。

既然以CHATGPT為基礎，SORA對文字的理解能力就遠超過其他生成式AI的競爭對手，因此SORA製作出來的影片長達一分鐘，遠超過對手的短短數秒，細緻度更勝過對手，SORA不僅能以文字生成影片，還能以圖片生成影片，以影片生成新影片，靠得就是優化文字與影像的演算法。它能把兩段不相關的影片合而為一。例如羅馬競技場上飛翔的無人機，變成了蝴蝶，飛入海中的珊瑚王國裡。

但是一些現實世界的物理現象，SORA還無法突破，例如一口咬下漢堡，漢堡上卻沒有牙齒的咬痕，例如籃球碰到籃框之後，不會反彈，卻是穿越籃框，又如這名運動員跑步時，跑的方向卻跟跑步機運行方向相反，記者：「創造者說若要SORA分辨左右有困難，遇到邏輯概念或找到彼此關聯性也有困難，例如這椅子在沙地上挪動，最後竟飄起來影片生成完全失敗，但我覺得這種超寫實的呈現依然很酷。」

儘管SORA製作的「文生影片」令人驚嘆，而且也還有一些缺點，但對影視和遊戲業的衝擊已立竿見影。特斯拉執行長馬斯克在社交平台上用網路「遊戲結束GG」的用語、留言說「GGHUMAN」也就是說他認為人類完蛋了。

2023年7月到11月，美國編劇作家演員美工特效等從業人員曾因勞資糾紛，發起史上最長的118天罷工。假以時日SORA發展更精進，這種罷工將不再具殺傷力，罷工者恐怕要失業了。業界預估SORA在一、兩年內發展成「通用人工智慧」，預估五年，一支不到五人的團隊就能用SORA文生影片的模型製作出一部票房收入超過五千萬美元的電影。OPENAI創始人山姆‧阿特曼：「當科技日新月異，我們能暸解人們對科技改變生活的焦慮。」但SORA問世使這種焦慮越來越具體化。

英國智財權律師帕維斯擁有市場主導力的大型企業，有財力爭取領先地位，即使在法律狀態不明的情況下亦然，記者VS.智財權律師帕維斯：「你意思是OPENAI基本上，大到難以控制了（是的）。」SORA顛覆世界、控制人類的威脅性目前難以預估。幸好SORA還在測試階段，並未開放給一般使用者。基於網路假消息滿天飛、仇恨新聞四處漫延，OPENAI正與網路安全專家與深偽科技專家合作，為SORA建立安全牆。

新聞來源：華視新聞