List

最近有機會跟數位媒體跟產業界的朋友交流,大家一方面驚訝深度學習技術的進步,另一方面又懷疑這樣的技術突破影響面能有多廣?

是的,很少人需要自動辨識狗或是貓,也不在乎AlphaGo打贏人類棋士。但是可以另一個方式思考—目前已經有接近商業化的技術可以用來彌補人類不足或是不擅長的工作。比如說我們可以使用比較具有擴展性(scalable)、有效率(efficiency)、或是高性價比的方式來協助個人或是商業上的應用。

對於機器智能以及人類的關係,我喜歡尋找 「互補」(complementary)的可能性,而不是「互斥」或是「敵對」的角度。

深度學習技術在影像分析上具有最大的進步(跟語音、文字來比的話)。如果思考的範圍加大,為什麼只用在單一照片?或是單一個攝影機上?

舉例來說,透過大家分享打卡的照片(非常容易取得,我們光是曼哈頓島在2014幾個月內就收集到幾千萬張照片),即使人不到現場,我們可以了解大家究竟點了那些餐點(食物分類)。透過分析這些餐廳出現的人像屬性(facial attributes),例如性別、種族、年紀、打扮,我們可以參考是否適合自己,適合帶小孩,適合怎樣的dressing code。如果再把這個人像屬性偵測擴展到其他景點、商店,更可以了解到這些大量地點的人口統計特性(demographics),直接幫助景點推薦。

事實上我們在ACM Multimedia 2011年就實現了這個全新角度,可以參考[2],這個論點也在研究社群內廣為流傳,我們的相關論文也有145個Google citation。當時,為了驗證這個想法,我們收集了全球19個主要都市,一千多萬張照片,實驗證明加上自動影像偵測出的人口統計特性,可以增加景點推薦的正確性。而且這些影像分析技術是跨語言的!

可以想像,如果要以人力統計這些景點、都市的人口統計特性,需要多少的時間成本,多少可行性。這就是機器智能技術可以大大助益的地方,而且這些分析結果經年累月會更趨正確,因為可以收集到的影像資料更大量的增長。機器智能彌補了人類的局限性!

有趣的是Li Fei Fei的團隊今年在AAAI也有類似的想法,他們是利用Google Street View上拍到的車輛種類來推估都市的人口統計特性,並且可以關聯於一些社會現象、能源使用等。可以參考。

另一個例子是,我們的博士班畢業生 Kuan-Ting Chen , 在美國博士後研究時,受到電影「誰是穿著Prada的惡魔」這部電影的啟發, 想要瞭解紐約時裝秀 (New York Fashion Show) 是否真的會影像到真實的服裝流行趨勢?

她連結台美雙邊的資源,分析兩年時裝秀照片中的衣服屬性(自動偵測,約60個),以及紐約街道上可以(自動)收集到的照片,初步經由統計方法,發現在每年服裝秀中,比較常出現的時尚元素,並且可以知道每年獨特流行的圖樣、款式、顏色等。不只用直觀的方式,給予大眾一個時尚元素的參考,在研究中也經由分析發現,社會大眾接受度較高的流行元素以及天氣環境會造成的影響。此發現可以回饋給設計師作為設計的參考,更進一步可以發展許多相關的實際應用,例如給予大眾未來流行穿著推薦等。
論文發表在ACM Multimedia 2015 (參考[1]),沒想到也引起了好幾個國際媒體的關注,例如紐約郵報(New York Post)(部份報導在圖片中), MIT Technology Review 等。
顯然,如何善用這些機器智能技術來彌補人類的侷限,或是增益未來商業上的應用,才是最令人有想像空間的!而且,影像資料的龐大以及豐富,是最另人興奮,最有機會的!
[1] Chen, et al., Who are the Devils Wearing Prada in New York City?, ACM Multimedia 2015.

[2] Chen, et al., Travel Recommendation by Mining People Attributes and Travel Group Types From Community-Contributed Photos, IEEE Trans. on Multimedia 2013.

  Tag: nypost

1 posts
March 19th, 2017

互補 vs. 互斥 (深度影像分析的實用性?)

最近有機會跟數位媒體跟產業界的朋友交流,大家一方面驚訝深度學習技術的進步,另一方面又懷疑這樣的技術突破影響面能有多廣? 是的,很少人需要自動辨識狗或是貓,也不在乎AlphaGo打贏人類棋士。但是可以另一個方式思考—目前已經有接近商業化的技術可以用來彌補人類不足或是不擅長的工作。比如說我們可以使用比較具有擴展性(scalable)、有效率(efficiency)、或是高性價比的方式來協助個人或是商業上的應用。 對於機器智能以及人類的關係,我喜歡尋找 「互補」(complementary)的可能性,而不是「互斥」或是「敵對」的角度。 深度學習技術在影像分析上具有最大的進步(跟語音、文字來比的話)。如果思考的範圍加大,為什麼只用在單一照片?或是單一個攝影機上? 舉例來說,透過大家分享打卡的照片(非常容易取得,我們光是曼哈頓島在2014幾個月內就收集到幾千萬張照片),即使人不到現場,我們可以了解大家究竟點了那些餐點(食物分類)。透過分析這些餐廳出現的人像屬性(facial attributes),例如性別、種族、年紀、打扮,我們可以參考是否適合自己,適合帶小孩,適合怎樣的dressing code。如果再把這個人像屬性偵測擴展到其他景點、商店,更可以了解到這些大量地點的人口統計特性(demographics),直接幫助景點推薦。 事實上我們在ACM Multimedia 2011年就實現了這個全新角度,可以參考[2],這個論點也在研究社群內廣為流傳,我們的相關論文也有145個Google citation。當時,為了驗證這個想法,我們收集了全球19個主要都市,一千多萬張照片,實驗證明加上自動影像偵測出的人口統計特性,可以增加景點推薦的正確性。而且這些影像分析技術是跨語言的! 可以想像,如果要以人力統計這些景點、都市的人口統計特性,需要多少的時間成本,多少可行性。這就是機器智能技術可以大大助益的地方,而且這些分析結果經年累月會更趨正確,因為可以收集到的影像資料更大量的增長。機器智能彌補了人類的局限性! 有趣的是Li Fei Fei的團隊今年在AAAI也有類似的想法,他們是利用Google Street View上拍到的車輛種類來推估都市的人口統計特性,並且可以關聯於一些社會現象、能源使用等。可以參考。 另一個例子是,我們的博士班畢業生 Kuan-Ting […]