List

你能區分影像社群網站的留言是來自機器還是真實使用者嗎?

從對話機器人、或是我們之前參與的小冰寫詩,我們知道影像與自動文字描述的重要性。超越平鋪直述的影像文字敘述,過去兩年我們研究「鄉民式」的影像自動留言系統,針對流行服飾的社群網站。主要研究如何產生更生動、更多樣性的影像對話內容,結合影像以及文字的深度學習技術。我們發現如何量測「多樣性」、「新鮮感」都是個未探討的議題。

同樣地,我們樂於將先導性研究所採集的大型資料與全球的研究社群分享,也是目前唯一相關研究的資料集。所採集目前含有超過35萬張照片、一萬一千位使用者、五百萬留言的「NetiLook」資料集目前公開下載。

相關技術也將發表在頂尖會議 WWW 2018 (Cognitive Computing Track). 我們並發現,一般使用者很難區分機器產生或是使用者的留言。

Recently, image captioning has appeared promising, which is expected to widely apply in chatbot area. Yet, “vanilla” sentences, only describing shallow appearances (e.g., types, colors), generated by current works are not satisfied netizen style resulting in lacking engagement with users. Hence, we propose Netizen Style Commenting (NSC), to generate characteristic comments to a user-contributed fashion photo. We are devoted to modulating the comments in a vivid netizen style which reflects the culture in a designated social community and hopes to facilitate more engagement with users. In this work, we design a novel framework that consists of three major components: (1) We construct a large-scale clothing dataset named NetiLook to discover netizen-style comments. (2) We propose three unique measures to estimate the diversity of comments. (3) We bring diversity by marrying topic models with neural networks to make up the insufficiency of conventional image captioning works. The work is also accepted for WWW 2018 (Cognitive Computing Track), also available in arXiv.

To the best of our knowledge, this is the first and the largest netizen-style commenting dataset, NetiLook. It contains 355,205 images from 11,034 users and 5 million associated comments collected from Lookbook, a fashion social media. Most of the images are fashion photos in various angles of views, distinct filters and different styles of collage. Each image is paired with (diverse) user comments, and the average number of comments is 14 per image in our dataset. Besides, each post has a title named by an author, a publishing date and the number of hearts given by other users. Moreover, some users add names, brands, pantone of the clothes, and stores where they bought the clothes. Furthermore, we collect the authors’ public information. Some of them contain age, gender, country and the number of fans. In this paper, we only use the comments and the photos from our dataset. Other attributes can be used to refine the system in future work.

We need to thank the continuing supports from Microsoft Research Asia, the MOST AI Initiatives Projects (科技部), and the fruitful discussions with Dr. Ruihua Song. We also benefit from the grants from NVIDIA and the NVIDIA DGX-1 AI Supercomputer.

  • Wen Hua Lin, Kuan-Ting Chen, Hung Yueh Chiang, Winston H. Hsu. Netizen-Style Commenting on Fashion Photos – Dataset and Diversity Measures. WWW 2018, Cognitive Computing Track. (arXiv available).
  • NetiLook Dataset: https://mashyu.github.io/NSC/

Leave a Reply

Your email address will not be published. Required fields are marked *

  Posts

1 2 3 5
February 8th, 2018

開始就有機會—從無到有的深度學習影像產品開發—群暉Synology

    智能技術是泡沫嗎? 只在口沫中的就是。 智能技術最大的效用,就在提升效率,生產力、以及安全性。增益既有的產品價值,擴張新的銷售管道或是客戶。 過去一年與 Synology 群暉科技 合作的使用者照片物件、場景、人臉辨識技術已經正式deploy到群暉的NAS跟手機中。不限在具有GPU的硬體,因為辨識引擎也經過設計優化。 相關過程也在 二月六號的「TechNews科技新報」的專題報導「搞定關鍵模型,台灣NAS 廠商一年內將AI 導入商用」。 為什麼?照片管理功能對群暉還有他的客戶群是「剛需」,因為使用者相當大量的資料是照片。 『「很令人興奮的產學合作經驗,群暉在深度學習技術從無到有,甚至目前各項視覺辨識指標都達到世界級的水準。」』 這不是恭維,透過嚴謹的研究過程,更能掌握核心技術深度,還有產品化繁瑣細節,並逐漸擴充到其他受惠於智能技術的產品線。 不只是群暉,最近另一家台北的系統廠,也是從無到有,建立了即時人臉辨識的引擎,經過與某國際大廠PK之後,領導階層才意識到自己團隊這一年來建立的堅強實力;目前也在公司內部數千人的場域進行PoC,進行產品化。 『對欲導入視覺辨識等人工智慧技術的企業,徐宏民提出三點建議,首先是相信台灣具有相關領域世界級的技術研究能量;其次是確保高階主管對深度學習等技術的認可並願意投資;最後是將深度學習等技術放到產品藍圖,而非只是單純做研究。』   Related

February 6th, 2018

Year End Party for the Amazing 2017!

February 6th, 2018

Public “NetiLook Dataset” for Netizen-Style Commenting on Fashion Photos

December 5th, 2017

深度卷積網路的產品開發經驗 (一) (Advancing Convolutional Neural Networks for Industrial Products – I)

October 28th, 2017

Best Brave New Idea Paper Award in ACM Multimedia 2017

October 28th, 2017

How to Get Started in (PhD) Research (如何帶領你的PhD學生)

October 25th, 2017

Technical Debt — 沒有白吃的午餐

  十月初Intel副總兼CTO Amir Khosrowshahi 來台,有機會交流。Amir說明Intel在未來智能服務的定位。其中提到了NIPS 2015 Sculley的論文中 “Technical Debt” (技術債)的概念。 很有趣的一個名詞,用來解釋天下沒有白吃的午餐 — 智能化當然是相當重要的未來,但是也得搭配其他不可或缺的要件。  很快的把Sculley的論文看了,主要討論智能元件上線之後,對於線上的工程系統有怎樣的工程挑戰:比如說如何維持特徵值擷取版本,過多的特徵值,訓練模型的版本等等。 值得工程人員關注。  其中最有意思的是這張圖,核心智能(機器學習或是深度學習)常常只是工程系統中的一小部分,為了讓整個服務可以完整的運行,還有其他重要配合的工程部分,例如資料收集、清理、運算資源管理、運算平台、監控服務等。Intel想提供圖一上的大部分,不是只有ML核心。  每個有價值的垂直領域,都有專業的知識,需要時間、成本累積。從一年多前開始跟醫學領域的人一起合作,完全可以感受到跨領域的挑戰,令人戰戰兢兢。  技術債可以用(素質好)的人力彌補,例如挖角、併購,但是價格高。  同樣的,對於非以IT技術擅長的產業,即時是獲利非常良好的隱形冠軍們,要智能化在公司內部開始產生效益,也需要相當的時間跟花費(同樣的,有許多技術債得償還)。當然,經營層的決心是最關鍵的。  這也可能是許多(新創)公司的機會所在。尤其是專注服務於產出大量資料,以及資料單位價值高的幾個領域:例如製造、能源、健康醫療、交通、IT等,都是值得大量投資智能技術的領域。 […]

August 29th, 2017

Interview by Harvard Business Review (哈佛商業評論) on How to Grow the (AI) Talents

August 27th, 2017

Panel Discussion in IBM Technical Forum 2017 and How to be the AI-Savvy Company

August 20th, 2017

Technical Talk in Dell Technology Forum 2017 — AI Developments and Opportunities