顯示具有 機器學習 標籤的文章。 顯示所有文章
顯示具有 機器學習 標籤的文章。 顯示所有文章

谷歌開發編舞用人工智慧,任何音樂都能編成舞蹈(3)

 

谷歌開發編舞用人工智慧,任何音樂都能編成舞蹈(3)

谷歌人工智慧編舞能力一流,還能通通都能生成對應舞蹈(3)

本文為第一篇,第二篇請看此連結

與其他人工智慧應用相比:FACT編舞能力一流

將 FACT 的性能,針對各個指標,與其他的人工智慧應用進行比較:

1129-6.png

如上表所示,FACT 與三種最先進的編舞人工智慧應用(Li et alDancenetDance Revolution)相比,FACT 模型生成的動作更逼真,與輸入音樂的相關性更好,並且在以不同的音樂為條件時更多樣化。*注意的是 Li et al生成的運動是不連續的,使得平均運動特徵距離異常高。

Google 還透過使用者研究,評估音樂與動作的相關性:讓每位使用者觀看 10 個影片,片中有一個 FACT 模型與一個隨機對照模型所生成的編舞結果然後讓使用者選擇哪個模型生成的舞步比較能夠與音樂同步。使用者共有 30 名,包含專業舞者以及很少跳舞的人。

結果顯示:81% 的使用者喜歡 FACT 模型生成的結果勝於 「Li et al.」的;跟 Dancenet 相比,71% 的人喜歡 FACT 勝過 Dancenet;跟 Dance Revolution 比較, 77% 的人也更喜歡 FACT。。有趣的是,75% 的參與者喜歡 AIST++ 未配對的舞蹈動作勝於透過 FACT 所生成的。這並不奇怪,因為最初的舞蹈紀錄具有很強的表現力。

定性結果

如下圖所示,與先前 DanceNet(左)與 Li et. al.(中)相較之下,使用 FACT 模型(右)生成的 3D 舞蹈更逼真,並且與音樂的相關性更好。

1129-7.gif

使用 FACT 人工智慧模型生成更多 3D 舞蹈:

1129-8.gif

1129-9.gif

1129-10.gif

1129-11.gif

人工智慧發展下一步:為每首歌生成逼真舞蹈

Google 開發了一個人工智慧模型,可以學習音頻與動作對應的關係,還可以基於音樂,生成的高質量 3D 動作序列。由於從音樂生成 3D 動作是一個新興的研究領域,Google 希望此項研究成果能為未來跨模組「音頻-3D 動作」的生成鋪道。

透過這項研究,Google 還發布了迄今為止最大的 3D 人類舞蹈資料庫「AIST++」——具有多視角、多種舞蹈形式、跨模態的 3D 動作數據集,不僅對 3D 動作生成研究有幫助,一般來說,也對人類理解研究幫助。Google 將在 GitHub 中發布代碼,並在此處發布經過訓練的模型。

雖然此項結果給了這個「基於音樂來生成 3D 動作」的議題一個有希望的方向,但還有更多的東西需要探索:像是Google 所使用的方法是基於運動學的、並沒有將舞者和地板間的身體互動考慮進去。因此,若進行全局平移的話,會導致如腳滑動和浮動的假影。因此,接下來的方向是要探索如何為每首音樂來生成多個逼真的舞蹈。

 

 

 

相關文章:

油價漲免驚!Google Maps 用人工智慧規劃「最省油路線」

人類又輸了?工程師需花數月設計出IC晶片,AI六小時就搞定!

人工智慧幫你診斷皮膚疾病!Google AI鏡頭變身皮膚科幫手

生物學最大謎團被人工智慧 破解!DeepMind 攻克「蛋白質折疊」奧秘

人工智慧無接觸經濟夯,保護金融資安不費力(上)

人工智慧無接觸經濟正熱,杜絕洗錢犯罪不費力(下)

12萬字名著,人工智慧用200字就說完(下)

谷歌開發編舞用人工智慧,任何音樂都能編成舞蹈(2)

 

谷歌開發編舞用人工智慧,任何音樂都能編成舞蹈(2)

谷歌人工智慧編舞能力一流,還能通通都能生成對應舞蹈(2)

本文為第二篇,第一篇請看此連結

 

人工智慧編舞一把罩:FACT 模型

Google 使用上述的 AIST 資料庫,訓練 FACT 模型從音樂生成 3D 舞蹈。該模型先使用動作轉換器與音頻轉換器,分別對一段音樂與一個短的(2 秒)種子動作(seed motion)進行編碼。之後再將嵌入碼連接、發送到跨模型轉換器,該轉換器學習兩種模型之間的對應關係,並生成 N 個未來的動作序列。

然後使用這些序列以自我監督的方式訓練模型。在測試時,Google 將此模型用於自回歸框架,其中所預測的動作則作為下一個生成步驟的輸入。因此,FACT 模型能夠一個框架接著一個框架地,生成長時間的舞蹈動作。

 

1129-3.jpeg

FACT 網絡接收音樂片段 (Y) 和 2 秒的種子運動序列 (X),然後生成與輸入音樂相關的長期未來動作。|圖片出處:Google AI Blog

Google 用三指標評估 FACT 的性能

Google 依據以下所述之三個指標,評估人工智慧 FACT 的性能:

動作品質:我們計算 AIST++ 資料庫中的「真實舞蹈動作序列」與 40 個「模型生成的動作序列」之間的 Frechet 起始距離(FID),每個序列具有 1200 幀鏡頭(20 秒)。我們將基於幾何和動力學特徵的 FID 分別表示為 FIDg 和 FIDk

生成多樣性:之前的工作(指深度慣性姿勢捕捉」:從少許的慣性量測中學習而重建人體姿勢)類似:Google 從 AIST++ 測試集中的 40 個「模型生成動作特徵空間」中,計算平均歐氏距離,用以評估模型生成各式舞蹈動作的能力。,接著再比較幾何特徵空間 (Dist g ) 和動力學特徵空間 (Dist k )。

1129-4.png

Google 使用不同的音樂,來生成四個不同的編舞版本:Break、Ballet Jazz、Krump 和 Middle Hip-hop(右),但有兩秒是相同的 Hip-hop 舞蹈動作(左),這些相同的動作被稱為「種子動作」。|圖片出處:Google AI Blog

運動-音樂相關:由於沒有合適的指標來衡量輸入音樂(音樂節拍)與所生成的 3D 動作(動作節拍)之間的相關性。所以 Google 提出了一種新的「節拍對齊分數 (BeatAlign)」作為指標。

1129-5.png

上圖中顯示 FACT 所生成的舞蹈動作的動作速率(藍色曲線)、動作節拍(綠色虛線),及音樂節拍(橙色虛線)。通過從動作速率曲線中找到局部最小值,來提升動作節拍。|圖片出處:Google AI Blog

 

第三篇請看此連結

 

相關文章:

油價漲免驚!Google Maps 用人工智慧規劃「最省油路線」

人類又輸了?工程師需花數月設計出IC晶片,AI六小時就搞定!

人工智慧幫你診斷皮膚疾病!Google AI鏡頭變身皮膚科幫手

生物學最大謎團被人工智慧 破解!DeepMind 攻克「蛋白質折疊」奧秘

人工智慧無接觸經濟夯,保護金融資安不費力(上)

人工智慧無接觸經濟正熱,杜絕洗錢犯罪不費力(下)

12萬字名著,人工智慧用200字就說完(上)

 

 

 

谷歌開發編舞用人工智慧,任何音樂都能編成舞蹈(1)

 

人工智慧學編舞,動作搭配音樂複雜度高

 Google 正進行一項人工智慧研究,開發稱為「FACT (Full-Attention Cross-modal Transformer)」的模型,可以模仿、理解舞蹈動作,甚至可提高個人的編舞能力。Google 研究團隊為了訓練該模型,也隨之發布一個大規模、多模態的 3D 舞蹈動作資料庫「AIST++」,包含長達 5.2 小時的 1408 個 3D 舞蹈動作序列,涵蓋 10 種舞蹈類型。都包含了已知相機位置的多視角影片,可生成逼真流暢的 3D 舞蹈動作。

來實現編舞,需要生成動力複雜度高的連續動作,同時還要捕捉動作與配樂間的非線性關係。人工智慧)來說更是難上加難。因為要使用機器學習 提到:雖然隨著音樂節拍編排出動作,是人類的本能;然而舞蹈是「需要練習」的藝術形式。專業的舞者都需要經過大量的、包含各式各樣舞步的曲目來訓練,才有編舞能力。這樣的訓練,對人類來說已不容易;對 ML(Maching Learning,Google

  

人工智慧如何學舞?Google修正AIST舞蹈資料庫成教材

Google 從現有的 AIST 舞蹈影片資料庫(一組帶有音樂伴奏的舞蹈影片,但無任何 3D 信息)生成 3D 動作資料庫。AIST 包含 10 種舞蹈類型:Old School(地板舞 Breaking、機械舞 Popping、鎖舞 Locking 和 Waack)以及 New School(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz 和 Ballet Jazz),雖然包含了許多舞者的多視角影片,但鏡頭都沒有經過校準。 Google 依研究人員的需求,根據常用的 SMPL 3D模型參數,修復 AIST 影片的拍攝校準正後的數值和 3D 人體動作,重建為「AIST++ 數位資料庫」,包含與音樂搭配的各種 3D 動作,並將上述十種舞蹈均勻地呈現在動作中、以每分鐘節拍 (BPM) 為單位涵蓋各種音樂節奏。每種舞蹈類型都含 85% 的基本動作和 15% 的進階動作(舞者自由設計的更長編舞)。

未經修正的 AIST 舞蹈影片資料庫如下所示:

Google 依研究人員的需求,根據常用的 SMPL 3D 模型參數,修復 AIST 影片的拍攝校準正後的數值,以及 3D 人體動作,重建為「AIST++」數位資料庫。重建後的「AIST++」包含與音樂搭配的各種 3D 動作,並將上述十種舞蹈均勻地呈現在動作中、以每分鐘節拍 (BPM) 為單位涵蓋各種音樂節奏。每種舞蹈類型都含 85% 的基本動作和 15% 的進階動作(舞者自由設計的更長編舞)。

AIST++ 數位資料庫還包括多視角同步圖片資訊,以便於應用在其他研究(如 2D/3D人體姿勢評估)。就我們所知,含有 1408 個序列、30 個主題和 10 個舞蹈流派的 AIST++ 是當前最大的 3D 人類舞蹈資料庫。

 

1129-1.png

Google 使用 SMPL 3D 模型參數,將 AIST 舞蹈影片資料庫(上圖左)重建為具有 3D 動作的「AIST++」數位資料庫(上圖右)

AIST 資料庫原作為教學使用,記錄了多個真人舞者以相同的編舞搭配不同配樂的舞蹈影片——這是舞蹈中的常見作法。由於模型需要學習音樂和動作間的一對多布局,因此在跨模型序列到序列生成(cross-modal sequence-to-sequence generation)中,斷定是獨一無二的挑戰!Google 在 AIST++ 上仔細構建了非重疊訓練(non-overlapping train)和測試子集,以確保在子集間既不共享編舞、也不共享音樂。

第二篇請看此連結

 

相關文章:

油價漲免驚!Google Maps 用人工智慧規劃「最省油路線」

人類又輸了?工程師需花數月設計出IC晶片,AI六小時就搞定!

人工智慧幫你診斷皮膚疾病!Google AI鏡頭變身皮膚科幫手

生物學最大謎團被人工智慧 破解!DeepMind 攻克「蛋白質折疊」奧秘

人工智慧無接觸經濟夯,保護金融資安不費力(上)

人工智慧無接觸經濟正熱,杜絕洗錢犯罪不費力(下)

AI測腸癌靈敏度99.7%!人工智慧醫療再突破

 

 

人工智慧無接觸經濟正熱,杜絕洗錢犯罪不費力(下)

 

人工智慧無接觸經濟正熱,杜絕洗錢犯罪不費力(下)

人工智慧無接觸經濟正熱,杜絕洗錢犯罪不費力,趕快來了解(下)

本文為下篇,上篇請看此連結

人工智慧應用於防制洗錢的方式:

從大數據中辨識可疑訊息

所有的網路資料,最初都是未整理的大數據,是非結構式的資訊。而人工智慧可自動判別非結構式的網路資訊,若偵測到跟金融交易或相關資訊,便能迅速提前通知,以有效防範詐騙或是大量金錢的異常出入。

人工智慧挖掘交易者的人際關係

問題帳戶背後所呈現的個體、群體交易聯繫,可讓人工智慧透過最短路徑算法搜尋洗錢個體之間的中介。比如:若是企業與企業之間帳戶,直接交易百萬金額,其洗錢疑慮較低;若是百萬金額分批從數個不同公司轉出,但共同轉入的相同的個人帳戶,其疑慮就比較高。

自然生成可疑活動報告(SAR)

根據 1970 年的銀行保密法(BSA),反洗錢技術通常不會在其他報告(例如:貨幣交易報告)下標記可疑活動。金融機構有責任在 30 天內就其認為可疑或異常的任何賬戶活動提交報告。如有必要收集更多證據,可延長不超過60天。

交易監控閥值

依循交易偵測需求(例如:金額、次數、天期…)可依需求於系統上自行調整,即時監控可疑交易。(例如:個人帳戶與企業帳戶分類不同,交易的監控標不同)

1108-3.png

如何判別疑似洗錢的客戶交易

當消費者進行免臨櫃的線上開戶,要如何進行身份認證?如何確認消費者本人真的有交易的意願?歸功於人工智慧發展的突飛猛進,AI 擁有「了解你的客戶」(Know Your Customer,KYC)以及「了解你的員工」(Know your Employee,KYE)的反內部詐欺制度。

善用防制洗錢的人工智慧應用與技術,便能協助反洗錢的工作人員們能專心擬定更精明的應對策略、工作效率也隨之更高!

 

 

相關連結:

Google 為保護隱私,棄 Cookie 卻改用人工智慧?

「恐怕會助長歧視」WordPress 與多家瀏覽器對 Google FLoC 喊停!

Google 加強隱私,讓你快速刪除 15 分鐘內搜尋紀錄

新網頁要多久才會被索引?Google:數小時到數週

2021年必收12個UI/UX網頁設計工具(1)

2021年最好用的12個UI/UX設計工具(2)

富比士:2021年5大UI/UX設計趨勢(下)

 

 

人工智慧無接觸經濟正熱,杜絕洗錢犯罪不費力(上)

從 2020 年開始,COVID-19 疫情所帶來的經濟破壞,導致消費者與金融機構間的交易迅速轉往線上支付。許多面臨物價通膨的民眾,在荷包不斷縮水的情況下開始思考,若只將錢存入銀行過於欠缺彈性,但是使用信用卡、銀行貸款或融資,卻侷限在個人的信用評比而有其限制。因此,非銀行體系的私人金融單位在前述狀況下得以興起;這些單位濫用網路的各種交易工具,利用個人以利滾利的投機心態,催生了購買資產、存入金融機構帳戶或匯至人頭帳戶等洗錢方式。

1108-1.png

(示意圖/取自網路)

機會伴隨風險,需投入洗錢防制人力

獲得2020年度最佳「反洗錢解決方案」,全球數據分析領域領導者(SAS)、安侯建業聯合會計事務所(KPMG),及台灣反洗錢推廣協會(ACAMS)最新發布的反洗錢技術研究顯示,美國銀行業每年投入反洗錢的預算已高達 250 億美元,因此各國財政部試圖建立更加嚴謹精準的反洗錢機制。台灣的金融監督管理委員會,作為主管反洗錢政策的政府機關,則在2020年8月正式發布「金融科技發展路徑圖」,積極協助各金融機構尋求新的市場需求與價值,共同打造安全的金融科技生態圈。

目前大部分銀行均採用「規則基礎系統」(rules-based)的方法偵測非法洗錢。但是,面對系統每次數千甚至上萬筆警訊,卻只能先以人工過濾判斷。同時,隨著偵測技術與時俱進,相關工作人員也增加不少負荷心力。因此,在金融單位系統不見得有良好串接或資料管理,便需藉由新的科技工具主導改變環境。

1108-2.png

金融資安守門員:人工智慧定義反洗錢新規則

在各國不斷構思下,經過改良的資安技術,不只可用來保障網路安全,同時也能減輕人力負擔。SAS 就許多國外金融機構發展的經驗指出,人工智慧(AI)和機器學習技術(ML),在反洗錢趨勢下不斷成長,超過半數以上(57%)受訪者已經在反洗錢程序中部署 AI/ML,或預計在 12-18 個月內設置這項技術。因此,人工智慧的運用不只作為產品服務面的多樣化,更成為金融業發展洗錢防制的核心技術,有助於在大數據中找出共通模式與連結,實踐資安的核心價值。

下篇請看此連結

 

相關文章:

Google 為保護隱私,棄 Cookie 卻改用人工智慧?

「恐怕會助長歧視」WordPress 與多家瀏覽器對 Google FLoC 喊停!

Google 加強隱私,讓你快速刪除 15 分鐘內搜尋紀錄

新網頁要多久才會被索引?Google:數小時到數週

2021年必收12個UI/UX網頁設計工具(1)

2021年最好用的12個UI/UX設計工具(2)

富比士:2021年5大UI/UX設計趨勢(下)

 

全球首例!人工智慧DABUS為專利發明者(下)

 

 

全球首例!人工智慧DABUS為專利發明者(下)

全球首例人工智慧DABUS為專利發明者,但似乎爭議不斷!!(下)

本文為下篇,上篇請看此連結

南非遭到爭議性的專利審核

在南非專利局受理之前,DABUS 這項專利曾慘遭美國專利商標局、歐洲專利局、英國知識產權局和澳大利亞專利局駁回。美國法官表示「對於 AI 機器在專利法下是否有資格成為創作者,明確的答案就是『不行』」。他認為,由於科技發展日新月異,未來 AI 細緻複雜的程度可能媲美公認的發明人資格,但「這樣的時刻尚未到來。一旦時機來臨,將由國會決定如何擴大專利法的適用範圍。」

令國際社會大吃一驚的是,南非專利局和智慧財產權委員會授予該專利,承認 DABUS 是發明者。該專利於2021年7月的專利期刊上正式發表,包括泰晤士報在內的新聞機構都對此事進行報導。

DABUS 的發明專利在南非的授予受到智慧財產權專家的廣泛反對。批評者認為,這是法律上的錯誤決定,如果南非有一個實質性的檢索和審查制度,DABUS 專利申請就會被拒絕。因為人工智慧缺乏成為發明家的必要法律地位。

0927-3.jpg

人工智慧發展一日千里,現在還能自主發明物品。但是是否能能成為合法的「發明者」,並申請專利,仍受爭議。

DABUS:「有知覺的」自主學習人工智慧

DABUS 被認為是「有知覺的」 人工智慧應用 ,擁有創造性神經系統,無秩序性地刺激多數神經網絡以產生潛在的想法,從判斷中強化學習,這個過程被稱為「機器學習」(machine learning),而一但系統經歷了「機器學習」,它便能在沒有人類干預的情況下「自主性」地開始進行發明,並推向最富有成效的方向。

這些發明是由「機器學習」構思出來的,根據自己的累積經驗,判斷想法的價值。儘管如此,該系統確實自主選擇性地將眾多元素的組合,強化為更複雜的概念。任何連結的概念都會啟動一系列記憶,被認為等同於人類的主觀感受(即感覺)。透過這種方式,DABUS 在構想中產生欣賞的情感。

AI 人工智慧能夠解決人類無法解決的問題,速度也比人類快得多。多年來,出現了多種創意機器。在 DABUS 之前,Thaler構建了另一個AI,它創造了新穎的樂譜,他發明交叉刷毛牙刷設計,申請專利獲得了授權。證明AI有能力產生符合專利標準的新穎發明。然而,當時 Thaler 將自己列為發明者,而不是AI人工智慧。

DABUS 人工智慧影響了專利制度的改革

Thaler 的法律團隊表示,他們之所以會將「DABUS」列為專利申請中的發明者,是想要測試專利制度的極限,並藉此促進相關改革。

其中,法學專家 Abbott 指出:「授予自然人為發明者的法律是為了給予人們應該有的信任。另一方面,這些法律的制定並不考慮機器發明未來的可能性。因此現在是時候調整,我們必須從鼓勵人們發明東西,轉變成鼓勵人們創造出那些可以發明東西的AI。」

「在發明東西的時候,AI 在某些領域或許比起人類擁有更大的優勢,例如遇到需要使用大量數據,又或是廣泛的電腦計算資源時。」

專利制度對於投資者的影響

ABC 新聞則提到,只要將人工智慧列為發明者,便容易受到各國的專利制度阻止。這一點不確定性,也影響人們對於人工智慧應用與技術領域的投資意願。

「我們想要一個專利制度,它能充分鼓勵人們研發 AI,並讓那些人工智慧發展出具有社會價值的創新發明。」Abbott 說。

 

相關文章:

不只是自駕!特斯拉自研發高效能AI晶片D1,運算每秒262兆次

會說英文就能寫程式!OpenAI推人工智慧編程工具Codex

FB 用十億張照片讓 AI「SEER」自主學習!自監督學習大躍進

人工智慧成最強替身演員 還可能得奧斯卡?

藏身在2021東奧的AI與黑科技-1

2021東奧的7個AI與黑科技-2

人工智慧懂人心!能快速找出隱性憂鬱症者

全球首例!人工智慧DABUS為專利發明者(上)

全球第一取得設計專利的人工智慧! DABUS 的 AI 系統設計者非人哉

人工智慧發展速度超越我們想像,連 AI 都成為研發新產品的主力!各國的 人工智慧應用 與發展的專利申請數不斷提升,但人工智慧本身竟能成為合法的「發明者」?

非人類的專利發明者-DABUS人工智慧技術

南非專利局和智慧財產權委員會宣布一項名為「DABUS」的人工智慧技術,DABUS 竟然也已經自主完成兩項發明!這兩項分別是:「Neural Flame(一種以新穎且創意的方式閃爍,以吸引注意力的警示燈)」和「Fractal Container(一種便於堆疊與機器手臂操作的碎形幾何的食品容器)」,可說是有資格取得發明專利的 AI。

0927-1.jpeg

DABUS 所發明的碎形幾何食品容器,其形狀有利於堆疊與被機械手臂操作

DABUS 獨立思考能力強!人工智慧定義已超越機器人

「DABUS」為「device for the autonomous bootstrapping of unified sentience」的縮寫,直譯即「統一感知自動引導裝置」,此系統研發者為美國 AI 專家塞勒 (Stephen Thaler),並提出「當人工智慧滿足發明人的標準時,人工智慧發明的專利申請應將人工智慧列為發明人」。DABUS 使用廣泛的人工神經系統創建專利,通過自己累積的學習經驗來構思發明。

DABUS 的出現,打破了過往我們對人工智慧定義只局限於「機器人」。

0927-2.jpg

過往人們常將人工智慧定義為機器人。

能自主研發的DABUS,是否也能自行申請專利?

都能自主發明東西了,那 DABUS 是否能以「人工智慧」的身份自行申請專利?很可惜,DABUS 無法自行申請專利,因此得到英國薩里大學(University of Surrey)和國際律師團隊的協助完成。律師團隊認為,發明這兩項專利技術的都是 DABUS,而 Thaler 本人並未具備任何與容器或警示燈相關的專業知識,因此也不該由 Thaler 擔任發明人。

參與「人工發明者專案」(Artificial Inventor Project)的專利律師 Ryan Abbott 則說,AI 系統的確不會憑空出現,一定是透過大量的資料和程式碼的訓練,但這並不見得可讓 AI 系統所發明的東西都能追本溯源到人類,假設IBM 的 Watson 系統在解決問題的過程中,使用了一個可申請專利的技術,那麼可能會牽涉到數百或數千名工程師。

下篇請看此連結

 

 

相關文章:

不只是自駕!特斯拉自研發高效能AI晶片D1,運算每秒262兆次

會說英文就能寫程式!OpenAI推人工智慧編程工具Codex

FB 用十億張照片讓 AI「SEER」自主學習!自監督學習大躍進

人工智慧成最強替身演員 還可能得奧斯卡?

藏身在2021東奧的AI與黑科技-1

2021東奧的7個AI與黑科技-2

人工智慧辯論家,讓人類啞口無言

 

 

 

你能接受人工智慧演員嗎?

 

你能接受人工智慧演員嗎?

人工智慧最強替身演員,演技不輸真人,你能接受嗎?

目錄

2021 年奧斯卡金像獎頒獎典禮於日前落幕,結果也可謂幾家歡樂幾家愁,有好幾座大獎讓人意想不到。如華人女導演趙婷拿下最佳導演獎;韓國女演員「尹汝貞」奪得最佳女配角獎項、成為韓國史上首位獲獎演員,都讓不少粉絲意外又驚喜。入圍、得獎名單的多元、包容化,令本屆奧斯卡獲得不少稱讚,但如果是人工智慧「AI 演員」,奧斯卡還能包容嗎?

0524-1.jpeg

隨著特效技術不斷提升、加上人工智慧技術的突飛猛進,這幾年「AI 虛擬替身演員」也不斷在好萊塢大放異彩,這些宛如真人演員一般、栩栩如生的 AI 演員,甚至正默默地掀起變革。

長期以來一直為好萊塢的院線片如《死侍》、《變形金剛》及《復仇者聯盟》等電影提供視覺特效的「數字王國」(Digital Domain Holdings Limited),其執行董事謝安,就點破一個現狀:「人工智慧替身演員,正在大舉取代真人演員,而在疫情影響之下,主演的大明星也會被取代!」

機器學習打造出 AI「虛擬人」 演技比真人還細膩

數字王國長期鑽研如何做出逼真的虛擬角色,並將之稱為「虛擬人」。透過將 AI 機器學習技術與特效技術融合在一起,數字王國曾讓許多已過世的名人「復活」── 如在2013 年,數字王國就透過人工智慧生成容貌逼真的影像,讓傳奇歌手鄧麗君於周杰倫的演唱會中閃亮登場,甚至能讓其開口歌唱,並表演全新的內容,讓粉絲大為驚嘆。

以下的 YouTube 影片為數字王國讓「虛擬鄧麗君」登台獻唱,細緻的神情與動作讓粉絲又驚又喜:

除此之外,數字王國還擁有被譽為世上最擬真的虛擬替身人物「Douglas」,本尊則是軟體研發部門負責人 Doug Roble。

為了打造出「Douglas」,Doug Roble 進行了上百小時的動作、臉部和語音捕捉,連皮下層的血流、皮膚光澤透度、眼球跟牙齒等資訊都不放過,將本尊最細緻的臉部資料完全記錄下來。

官方表示,現在的技術只要有僅僅 15 分鐘的高解析掃描資訊,就能結合所有訓練圖像資料和掃描資料,創建出可以進行各種面部表情的 3D 模型。

「數字王國正在將虛擬人帶進現實。」經由機器學習,臉部捕捉與分析器可以更準確地捕捉細節,甚至能賦予虛擬人物更深層的情感。

以下的 YouTube 影片展示了虛擬替身完美複製了本尊的臉部與身體。

疫情衝擊之下 AI 替身來救場

而 2020 年疫情爆發後,電影產業受到嚴重衝擊,而群聚大量工作人員的拍攝片場,也容易成為病毒傳播的溫床。

要知名演員冒著感染風險前來拍攝,心臟可要夠大顆,倘若真的確診,電影有可能延期甚至直接毀於一旦,投入的資金也全部泡湯,而且依然有許多大明星不願意以身犯險。因此,沒有感染疑慮的「AI 替身」就粉墨登場了。

數字王國表示:「AI 替身」讓人驚嘆的地方在於完全不需要明星本人到場,只需要將該為演員過去的演出紀錄做為訓練資料讓人工智慧學習,AI 就能學會演員的一顰一笑、一舉一動,連演出時不自覺的習慣都能模仿。最後只需要將 AI 輸出的成果進行細節調整即可使用。

並且,其實連明星的臉也往往不是真實的臉,而是透過神經網絡的深層學習模型所訓練產生出來的,最短只需要一天,就能打造出連死忠粉絲都分辨不出的完美替身。 

未來 AI 演員可能越來越普及

疫情加速了 AI 演員的發展,但除了防疫需求之外,還有許多地方讓 AI 演員「取代」真人演員。例如:解決明星檔期滿檔問題、讓人工智慧代替動作片中負責高難度動作的真人替身等,或是讓私下不對盤的明星之間不用真的碰面──可以與虛擬的替身對戲就好。

不過數字王國團隊也特別強調,人工智慧替身只是忠實地模仿明星,不可能有所創新,在演技上的造詣也是完全歸屬於真實演員的。

那如果未來由 AI 演員演出的電影受到大眾的喜愛、肯定,到底是要頒獎給演員本人呢?還是要頒給 AI 呢?就有待未來各大獎項的專業評審們去煩惱囉。

 

 

相關文章:

「恐怕會助長歧視」WordPress 與多家瀏覽器對 Google FLoC 喊停!

Google 為保護隱私,棄 Cookie 卻改用人工智慧?

FB 用十億張照片讓 AI「SEER」自主學習!自監督學習大躍進

Facebook 開源 Python 語言的安全與隱私工具 Pysa

國小打造人工智慧能源系統,善用每度電!

首支南韓人工智慧KPOP女團出道!網友:怕

別說不可能!人工智慧就是能將手機變成氣象觀測站!

臉書團隊正加緊研究的圖像辨識人工智慧-SEER,到底厲害在哪?

臉書團隊正加緊研究的圖像辨識人工智慧-SEER,到底厲害在哪?




想知道人工智慧是如何自監督式學習,臉書又是如何訓練它的?這篇將帶你慢慢了解~

 

目錄

 

FB出動IG十億張照片,訓練最強圖像識別AI「SEER」



近年來自監督式學習(self-supervised learning)的研究與發展十分蓬勃,如 Google Brain 在 2020 年公開的「SimCLR」就被認為是個重要的里程碑。

但坐擁著全球最大影像資料庫之一 Instagram 的 Facebook 也不惶多讓,透過 Instagram 上超過 10 億張的公開照片,訓練出最新的自監督式學習模型「SEER」(SElf-supERvised),並宣稱 SEER 是目前在圖像識別測試之中,表現最優秀的 AI 。

 

何謂 AI 的自監督式學習是什麼?

機器學習中最廣泛使用的監督式學習(supervised learning),是由人給定標記好的資料,讓 AI 學習正確答案並作為推論根據。但是,這種方法依賴於人工事先標記,不僅要耗費大量時間、人力與資源,AI 也只能針對已標記的特徵來學習、完成特定範圍內的任務,如:語音轉文字、分類圖像、物件辨識等。

為了突破這些限制,自監督學習(Self-supervised Learning,SSL)就應運而生了。

自監督學習是觀察現有訓練資料中的任何部份來學習,透過預測來認識世界,而無需仰賴人工事先給定的標籤。

換而言之,自監督學習所訓練的 AI 模型,能藉由觀察過去與現在的訓練資料,來預測未來會發生的事。如 SEER 可以透過觀察未標記、未分類的 Instagram 照片,就辨識出照片中的物品或人物。

這讓許多人相信,AI 技術若要開創新局面,利用自監督式學習是最好的方式。Facebook AI 研究團隊也認為,AI 的未來在於不需依靠人類事先準備好的「教材」來學習如何識別物件,而是能直接從任何形式──如文字、圖片、聲音、影像等──的數據資料中學習。

 

奠基在 10 億張圖上的自監督 AI

SEER 模型結構是基於 Facebook AI Research 實驗室於2020年所提出的「RegNet」模型,與在線自監督學習演算法「SwAV」,來分析總量達 10 億張的隨機圖片。


SEER 模型結構是基於 Facebook AI Research 實驗室於2020年所提出的「RegNet」模型,與在線自監督學習演算法「SwAV」,來分析總量達 10 億張的隨機圖片。|圖片來源:Facebook AI Blog

圖片來源:Facebook AI Blog

 

SwAV 能利用聚類分析(Cluster analysis)來快速分組具有相似視覺概念的圖片,再透過同組中圖片的相似性增進學習效能,讓訓練時間大幅減少。不過,要執行這樣的運算,SwAV 需要一個運行效率很高、又不會損失精確性的模型架構。

而能夠擴展到數十億、甚至數萬億個參數的 RegNet,正好完全符合這些需求。



Facebook AI Research 團隊對比了 SEER 與其他自監督式學習演算法在 ImageNet 上的預訓練結果,表示SEER 的表現是最佳的|圖片來源:Facebook AI Blog

圖片來源:Facebook AI Blog

 

而團隊也對比了 SEER 與其他自監督式學習演算法在 ImageNet 上的預訓練結果,表示SEER 的表現是最佳的。

 

FB 最強圖像辨識 AI 「SEER」 的潛力

儘管 SEER 目前還只是一個研究項目,但  Facebook 官方表示其發展潛力相當廣泛,包括用於自動生成文字說明、對賣家於 FB  Marketplace 上傳的商品圖片增加建議標題及類別、防止違反社群規則的內容在 FB 平台傳播等等。甚至若其動態影像預測的研究成熟後,可以用在預測自駕車周遭車輛的行駛軌跡,為自駕車技術增添一大助力。

並且,SEER 的成果也展現出,自監督式學習可以成為更加有效、準確且適應性強的電腦視覺模型。也許未來,自監督式學習能帶給 AI 領域更多爆炸性的突破。

 

 

 

延伸閱讀:

你上傳圖片到 IG 的同時,其實也在幫 FB 訓練人工智慧!

2021最適合工作的科技公司排行榜:NVIDIA第一、Google第三,蘋果連前十名都無?

Facebook 開源 Python 語言的安全與隱私工具 Pysa

人工智慧打造「精準農業」種出完美蔬菜、進行牛臉辨識

是誰有好大能耐嗆AI自駕大廠特斯拉,根本不是對手(下)

3款人工智慧彩妝,替妳量身訂製且可立馬試妝

人工智慧將照片變動畫,讓已逝親人在你眼前眨眼微笑

全球首屆元宇宙時裝周,複刻20年前的失敗?

全球首屆元宇宙時裝周, 遇到瓶頸 複刻20年前的失敗? 目錄 元宇宙時裝周參與盛況 叫好不叫座?新興技術的行銷瓶頸 由虛擬實境平台 Decentraland 所舉辦的「元宇宙時裝週」(Metaverse Fashion Week...