List

你能區分影像社群網站的留言是來自機器還是真實使用者嗎?

從對話機器人、或是我們之前參與的小冰寫詩,我們知道影像與自動文字描述的重要性。超越平鋪直述的影像文字敘述,過去兩年我們研究「鄉民式」的影像自動留言系統,針對流行服飾的社群網站。主要研究如何產生更生動、更多樣性的影像對話內容,結合影像以及文字的深度學習技術。我們發現如何量測「多樣性」、「新鮮感」都是個未探討的議題。

同樣地,我們樂於將先導性研究所採集的大型資料與全球的研究社群分享,也是目前唯一相關研究的資料集。所採集目前含有超過35萬張照片、一萬一千位使用者、五百萬留言的「NetiLook」資料集目前公開下載。

相關技術也將發表在頂尖會議 WWW 2018 (Cognitive Computing Track). 我們並發現,一般使用者很難區分機器產生或是使用者的留言。

Recently, image captioning has appeared promising, which is expected to widely apply in chatbot area. Yet, “vanilla” sentences, only describing shallow appearances (e.g., types, colors), generated by current works are not satisfied netizen style resulting in lacking engagement with users. Hence, we propose Netizen Style Commenting (NSC), to generate characteristic comments to a user-contributed fashion photo. We are devoted to modulating the comments in a vivid netizen style which reflects the culture in a designated social community and hopes to facilitate more engagement with users. In this work, we design a novel framework that consists of three major components: (1) We construct a large-scale clothing dataset named NetiLook to discover netizen-style comments. (2) We propose three unique measures to estimate the diversity of comments. (3) We bring diversity by marrying topic models with neural networks to make up the insufficiency of conventional image captioning works. The work is also accepted for WWW 2018 (Cognitive Computing Track), also available in arXiv.

To the best of our knowledge, this is the first and the largest netizen-style commenting dataset, NetiLook. It contains 355,205 images from 11,034 users and 5 million associated comments collected from Lookbook, a fashion social media. Most of the images are fashion photos in various angles of views, distinct filters and different styles of collage. Each image is paired with (diverse) user comments, and the average number of comments is 14 per image in our dataset. Besides, each post has a title named by an author, a publishing date and the number of hearts given by other users. Moreover, some users add names, brands, pantone of the clothes, and stores where they bought the clothes. Furthermore, we collect the authors’ public information. Some of them contain age, gender, country and the number of fans. In this paper, we only use the comments and the photos from our dataset. Other attributes can be used to refine the system in future work.

We need to thank the continuing supports from Microsoft Research Asia, the MOST AI Initiatives Projects (科技部), and the fruitful discussions with Dr. Ruihua Song. We also benefit from the grants from NVIDIA and the NVIDIA DGX-1 AI Supercomputer.

  • Wen Hua Lin, Kuan-Ting Chen, Hung Yueh Chiang, Winston H. Hsu. Netizen-Style Commenting on Fashion Photos – Dataset and Diversity Measures. WWW 2018, Cognitive Computing Track. (arXiv available).
  • NetiLook Dataset: https://mashyu.github.io/NSC/

  Tag: fashion

2 posts
February 6th, 2018

Public “NetiLook Dataset” for Netizen-Style Commenting on Fashion Photos

你能區分影像社群網站的留言是來自機器還是真實使用者嗎? 從對話機器人、或是我們之前參與的小冰寫詩,我們知道影像與自動文字描述的重要性。超越平鋪直述的影像文字敘述,過去兩年我們研究「鄉民式」的影像自動留言系統,針對流行服飾的社群網站。主要研究如何產生更生動、更多樣性的影像對話內容,結合影像以及文字的深度學習技術。我們發現如何量測「多樣性」、「新鮮感」都是個未探討的議題。 同樣地,我們樂於將先導性研究所採集的大型資料與全球的研究社群分享,也是目前唯一相關研究的資料集。所採集目前含有超過35萬張照片、一萬一千位使用者、五百萬留言的「NetiLook」資料集目前公開下載。 相關技術也將發表在頂尖會議 WWW 2018 (Cognitive Computing Track). 我們並發現,一般使用者很難區分機器產生或是使用者的留言。 Recently, image captioning has appeared promising, which is expected to […]

March 19th, 2017

互補 vs. 互斥 (深度影像分析的實用性?)

最近有機會跟數位媒體跟產業界的朋友交流,大家一方面驚訝深度學習技術的進步,另一方面又懷疑這樣的技術突破影響面能有多廣? 是的,很少人需要自動辨識狗或是貓,也不在乎AlphaGo打贏人類棋士。但是可以另一個方式思考—目前已經有接近商業化的技術可以用來彌補人類不足或是不擅長的工作。比如說我們可以使用比較具有擴展性(scalable)、有效率(efficiency)、或是高性價比的方式來協助個人或是商業上的應用。 對於機器智能以及人類的關係,我喜歡尋找 「互補」(complementary)的可能性,而不是「互斥」或是「敵對」的角度。 深度學習技術在影像分析上具有最大的進步(跟語音、文字來比的話)。如果思考的範圍加大,為什麼只用在單一照片?或是單一個攝影機上? 舉例來說,透過大家分享打卡的照片(非常容易取得,我們光是曼哈頓島在2014幾個月內就收集到幾千萬張照片),即使人不到現場,我們可以了解大家究竟點了那些餐點(食物分類)。透過分析這些餐廳出現的人像屬性(facial attributes),例如性別、種族、年紀、打扮,我們可以參考是否適合自己,適合帶小孩,適合怎樣的dressing code。如果再把這個人像屬性偵測擴展到其他景點、商店,更可以了解到這些大量地點的人口統計特性(demographics),直接幫助景點推薦。 事實上我們在ACM Multimedia 2011年就實現了這個全新角度,可以參考[2],這個論點也在研究社群內廣為流傳,我們的相關論文也有145個Google citation。當時,為了驗證這個想法,我們收集了全球19個主要都市,一千多萬張照片,實驗證明加上自動影像偵測出的人口統計特性,可以增加景點推薦的正確性。而且這些影像分析技術是跨語言的! 可以想像,如果要以人力統計這些景點、都市的人口統計特性,需要多少的時間成本,多少可行性。這就是機器智能技術可以大大助益的地方,而且這些分析結果經年累月會更趨正確,因為可以收集到的影像資料更大量的增長。機器智能彌補了人類的局限性! 有趣的是Li Fei Fei的團隊今年在AAAI也有類似的想法,他們是利用Google Street View上拍到的車輛種類來推估都市的人口統計特性,並且可以關聯於一些社會現象、能源使用等。可以參考。 另一個例子是,我們的博士班畢業生 Kuan-Ting […]