互補 vs. 互斥 （深度影像分析的實用性？）

List

互補 vs. 互斥（深度影像分析的實用性？）

March 19, 2017 | winston | Diary, Publications, Students | fashion, media, nypost

最近有機會跟數位媒體跟產業界的朋友交流，大家一方面驚訝深度學習技術的進步，另一方面又懷疑這樣的技術突破影響面能有多廣？

是的，很少人需要自動辨識狗或是貓，也不在乎AlphaGo打贏人類棋士。但是可以另一個方式思考—目前已經有接近商業化的技術可以用來彌補人類不足或是不擅長的工作。比如說我們可以使用比較具有擴展性（scalable）、有效率（efficiency）、或是高性價比的方式來協助個人或是商業上的應用。

對於機器智能以及人類的關係，我喜歡尋找「互補」（complementary）的可能性，而不是「互斥」或是「敵對」的角度。

深度學習技術在影像分析上具有最大的進步（跟語音、文字來比的話）。如果思考的範圍加大，為什麼只用在單一照片？或是單一個攝影機上？

舉例來說，透過大家分享打卡的照片（非常容易取得，我們光是曼哈頓島在2014幾個月內就收集到幾千萬張照片），即使人不到現場，我們可以了解大家究竟點了那些餐點（食物分類）。透過分析這些餐廳出現的人像屬性（facial attributes），例如性別、種族、年紀、打扮，我們可以參考是否適合自己，適合帶小孩，適合怎樣的dressing code。如果再把這個人像屬性偵測擴展到其他景點、商店，更可以了解到這些大量地點的人口統計特性（demographics），直接幫助景點推薦。

事實上我們在ACM Multimedia 2011年就實現了這個全新角度，可以參考[2]，這個論點也在研究社群內廣為流傳，我們的相關論文也有145個Google citation。當時，為了驗證這個想法，我們收集了全球19個主要都市，一千多萬張照片，實驗證明加上自動影像偵測出的人口統計特性，可以增加景點推薦的正確性。而且這些影像分析技術是跨語言的！

可以想像，如果要以人力統計這些景點、都市的人口統計特性，需要多少的時間成本，多少可行性。這就是機器智能技術可以大大助益的地方，而且這些分析結果經年累月會更趨正確，因為可以收集到的影像資料更大量的增長。機器智能彌補了人類的局限性！

有趣的是Li Fei Fei的團隊今年在AAAI也有類似的想法，他們是利用Google Street View上拍到的車輛種類來推估都市的人口統計特性，並且可以關聯於一些社會現象、能源使用等。可以參考。

另一個例子是，我們的博士班畢業生 Kuan-Ting Chen ，在美國博士後研究時，受到電影「誰是穿著Prada的惡魔」這部電影的啟發，想要瞭解紐約時裝秀 (New York Fashion Show) 是否真的會影像到真實的服裝流行趨勢？

她連結台美雙邊的資源，分析兩年時裝秀照片中的衣服屬性（自動偵測，約60個），以及紐約街道上可以（自動）收集到的照片，初步經由統計方法，發現在每年服裝秀中，比較常出現的時尚元素，並且可以知道每年獨特流行的圖樣、款式、顏色等。不只用直觀的方式，給予大眾一個時尚元素的參考，在研究中也經由分析發現，社會大眾接受度較高的流行元素以及天氣環境會造成的影響。此發現可以回饋給設計師作為設計的參考，更進一步可以發展許多相關的實際應用，例如給予大眾未來流行穿著推薦等。
論文發表在ACM Multimedia 2015 （參考[1]），沒想到也引起了好幾個國際媒體的關注，例如紐約郵報（New York Post）（部份報導在圖片中）， MIT Technology Review 等。
顯然，如何善用這些機器智能技術來彌補人類的侷限，或是增益未來商業上的應用，才是最令人有想像空間的！而且，影像資料的龐大以及豐富，是最另人興奮，最有機會的！
[1] Chen, et al., Who are the Devils Wearing Prada in New York City?, ACM Multimedia 2015.

[2] Chen, et al., Travel Recommendation by Mining People Attributes and Travel Group Types From Community-Contributed Photos, IEEE Trans. on Multimedia 2013.

Posts

June 7th, 2018

First Place (#1) in Disguised Face Recognition in CVPR 2018

Feel proud that the team is ranked #1 (the First Place) in CVPR 2018 Disgusied Face Recognition! Our team just won […]

January 6th, 2019

意想不到的科技部「AI投資潛力獎第一名」

我一直相信前瞻學術研究跟產業應用可以在某些方面尋找到很好的平衡點。很高興今天在科技部主辦的AI計畫觀摩會中，看到許多的PI們都帶來了讓人驚艷的突破，學習到很多新的觀點。特別是感謝大家的支持，讓我們研究團隊獲得「AI投資潛力獎第一名」的肯定。我們也期待可以將這些前瞻研究轉化為商業應用。我想是我們在研究的過程中，加入了應用場域的思維以及產業界的朋友們持續提供給我們各種深具挑戰的應用情境。特別感謝台大多媒體實驗室#CMLab的團隊以及 Co-PI們（Chuang Yung-Yu Robin Bing-Yu Chen 李宏毅）的努力！以及台大AI中心陳信希教授的大力支援。也期待接下來的持續挑戰！ Our #CMLab project, DeepTutor, contributed by many CMLab faculties […]

December 16th, 2018

Keep Recruiting for Machine Learning Research Partners for Numerous Visual Sensors

誠徵一起打世界杯的研究夥伴！十一年來，我們持續專注在各種視覺訊號上的機器學習研究。因為我們看到也相信這是一個必然的趨勢：視覺感應器量與種類持續劇增！很難想像我們的研究會由新聞視訊、影像搜尋逐漸進展到監控、人臉辨識、醫學影像、衛星影像、無人機、3D點雲（LiDAR、RGB-D）、甚至是工業智能、機器手臂視覺。我們專注在這些技術對於產業（或是個人）可以帶來的efficiency、productivity、跟safety。我們在乎研究產出的實質影響力。除了論文的發表之外，很高興這些工作也大大貢獻在國際大型研究競賽、產品、成立新創公司上。未來的十年，必定更加的精彩！我們渴望勇敢的研究夥伴加入我們。專職研究人員、博士後、博士生等。歡迎來現場跟我們聊聊！或是參考我的FB、網頁。或是關於團隊的各種報導。

December 16th, 2018

FutureTech Demo and Breakthrough Award (未來科技突破獎)

We are invited for a prestigious demo in FutureTech 2018 by Ministry of Science and Technology, (MOST) during Nov. 13-15, […]

October 12th, 2018

結合虛與實的試鞋生成網路 (Virtual Try-On Shoe with Generative Neural Networks)

我們都有這樣的困擾，在電子購物的時候，看到一雙好看的鞋子，想買。但是卻又拿不定主意自己穿起來好看嗎？或是搭配某件褲子適合嗎？怎麼讓網路虛擬商城的鞋子，可以有效試在自己的腳上呢？這個工作的挑戰在於如何使用單張鞋子商品的照片，很自然的合成在使用者的腳上，而且腳可能會有各種姿勢、角度。如何客服這個問題？很高興大學部專題生（EE）周晁德完成了這個 PIVTONS 的虛擬鞋子試穿生成網路，試著解決這個困擾大家很久的問題。這個有趣的工作也將於十二月初，在澳洲珀斯舉辦 Asian Conference on Computer Vision (ACCV) 2018 以大會演說 (Oral) 的方式跟大家分享這個工作。接下來全新的測試資料集將會公開讓大家使用，如果可以的話，我們也將試試看將整個試穿生成系統上線，讓大家體驗虛擬試鞋的樂趣 — 可以多試穿，多省錢。我們鼓勵high-risk的研究工作。令人慶幸的是，這工作的發想、資料收集都是專題生獨立完成。當然在過程當中遇到很多GAN生成的問題，網路設計、訓練的問題，幾乎放棄了，還好團隊成員一起想辦法解決，關關難過，關關過（甚至免費擔任model），讓這個兼具技術深度以及商業價值的系統，可以順利完成。我們也一直努力，讓智能生成（或是辨識）系統，賦予更有意義的應用 […]

September 13th, 2018

Winston H. Hsu

National Taiwan University