List

最近有機會跟數位媒體跟產業界的朋友交流,大家一方面驚訝深度學習技術的進步,另一方面又懷疑這樣的技術突破影響面能有多廣?

是的,很少人需要自動辨識狗或是貓,也不在乎AlphaGo打贏人類棋士。但是可以另一個方式思考—目前已經有接近商業化的技術可以用來彌補人類不足或是不擅長的工作。比如說我們可以使用比較具有擴展性(scalable)、有效率(efficiency)、或是高性價比的方式來協助個人或是商業上的應用。

對於機器智能以及人類的關係,我喜歡尋找 「互補」(complementary)的可能性,而不是「互斥」或是「敵對」的角度。

深度學習技術在影像分析上具有最大的進步(跟語音、文字來比的話)。如果思考的範圍加大,為什麼只用在單一照片?或是單一個攝影機上?

舉例來說,透過大家分享打卡的照片(非常容易取得,我們光是曼哈頓島在2014幾個月內就收集到幾千萬張照片),即使人不到現場,我們可以了解大家究竟點了那些餐點(食物分類)。透過分析這些餐廳出現的人像屬性(facial attributes),例如性別、種族、年紀、打扮,我們可以參考是否適合自己,適合帶小孩,適合怎樣的dressing code。如果再把這個人像屬性偵測擴展到其他景點、商店,更可以了解到這些大量地點的人口統計特性(demographics),直接幫助景點推薦。

事實上我們在ACM Multimedia 2011年就實現了這個全新角度,可以參考[2],這個論點也在研究社群內廣為流傳,我們的相關論文也有145個Google citation。當時,為了驗證這個想法,我們收集了全球19個主要都市,一千多萬張照片,實驗證明加上自動影像偵測出的人口統計特性,可以增加景點推薦的正確性。而且這些影像分析技術是跨語言的!

可以想像,如果要以人力統計這些景點、都市的人口統計特性,需要多少的時間成本,多少可行性。這就是機器智能技術可以大大助益的地方,而且這些分析結果經年累月會更趨正確,因為可以收集到的影像資料更大量的增長。機器智能彌補了人類的局限性!

有趣的是Li Fei Fei的團隊今年在AAAI也有類似的想法,他們是利用Google Street View上拍到的車輛種類來推估都市的人口統計特性,並且可以關聯於一些社會現象、能源使用等。可以參考。

另一個例子是,我們的博士班畢業生 Kuan-Ting Chen , 在美國博士後研究時,受到電影「誰是穿著Prada的惡魔」這部電影的啟發, 想要瞭解紐約時裝秀 (New York Fashion Show) 是否真的會影像到真實的服裝流行趨勢?

她連結台美雙邊的資源,分析兩年時裝秀照片中的衣服屬性(自動偵測,約60個),以及紐約街道上可以(自動)收集到的照片,初步經由統計方法,發現在每年服裝秀中,比較常出現的時尚元素,並且可以知道每年獨特流行的圖樣、款式、顏色等。不只用直觀的方式,給予大眾一個時尚元素的參考,在研究中也經由分析發現,社會大眾接受度較高的流行元素以及天氣環境會造成的影響。此發現可以回饋給設計師作為設計的參考,更進一步可以發展許多相關的實際應用,例如給予大眾未來流行穿著推薦等。
論文發表在ACM Multimedia 2015 (參考[1]),沒想到也引起了好幾個國際媒體的關注,例如紐約郵報(New York Post)(部份報導在圖片中), MIT Technology Review 等。
顯然,如何善用這些機器智能技術來彌補人類的侷限,或是增益未來商業上的應用,才是最令人有想像空間的!而且,影像資料的龐大以及豐富,是最另人興奮,最有機會的!
[1] Chen, et al., Who are the Devils Wearing Prada in New York City?, ACM Multimedia 2015.

[2] Chen, et al., Travel Recommendation by Mining People Attributes and Travel Group Types From Community-Contributed Photos, IEEE Trans. on Multimedia 2013.

  Posts

1 2 3 6
June 7th, 2018

First Place (#1) in Disguised Face Recognition in CVPR 2018

January 6th, 2019

意想不到的科技部「AI投資潛力獎第一名」

December 16th, 2018

Keep Recruiting for Machine Learning Research Partners for Numerous Visual Sensors

December 16th, 2018

FutureTech Demo and Breakthrough Award (未來科技突破獎)

October 12th, 2018

結合虛與實的試鞋生成網路 (Virtual Try-On Shoe with Generative Neural Networks)

我們都有這樣的困擾,在電子購物的時候,看到一雙好看的鞋子,想買。但是卻又拿不定主意自己穿起來好看嗎?或是搭配某件褲子適合嗎?怎麼讓網路虛擬商城的鞋子,可以有效試在自己的腳上呢? 這個工作的挑戰在於如何使用單張鞋子商品的照片,很自然的合成在使用者的腳上,而且腳可能會有各種姿勢、角度。如何客服這個問題? 很高興大學部專題生(EE) 周晁德 完成了這個 PIVTONS 的虛擬鞋子試穿生成網路,試著解決這個困擾大家很久的問題。 這個有趣的工作也將於十二月初,在澳洲珀斯舉辦 Asian Conference on Computer Vision (ACCV) 2018 以大會演說 (Oral) 的方式跟大家分享這個工作。接下來全新的測試資料集將會公開讓大家使用,如果可以的話,我們也將試試看將整個試穿生成系統上線,讓大家體驗虛擬試鞋的樂趣 — 可以多試穿,多省錢。 我們鼓勵high-risk的研究工作。令人慶幸的是,這工作的發想、資料收集都是專題生獨立完成。當然在過程當中遇到很多GAN生成的問題,網路設計、訓練的問題,幾乎放棄了,還好團隊成員一起想辦法解決,關關難過,關關過(甚至免費擔任model),讓這個兼具技術深度以及商業價值的系統,可以順利完成。 我們也一直努力,讓智能生成(或是辨識)系統,賦予更有意義的應用 […]

September 13th, 2018

Finalist (Top 3) in 2018 IEEE Signal Processing Society Video and Image Processing (VIP) Cup

July 29th, 2018

信手拈來的3D模型搜尋 (Cross-View and Cross-Domain 3D Model Search)

July 27th, 2018

低解析人臉辨識跟解析度放大 (Very Low-Resolution Face Hallucination and Recognition)

June 18th, 2018

Winning Third Place in CVPR 2018 Video Recognition Challenge — Moments in Time

June 13th, 2018

[Video Report] National Investment for the GPU Supercomputer?

June 9th, 2018

Amazing Crowd Size and Positive Feedbacks in the Deep Learning Lecture for GTC 2018 Taipei