List

In the past months, we are helping a Taipei-based leading Network Attached Storage (NAS) company, Synology, for realizing convolutional neural networks into there key products — Synology Moments,which aims to provide effective and efficient solutions for manipulating hugely growing consumer photos in their products. The needs are strong and solid as the customers care the most for the photos and videos in the private (backup) storage. We help enable image recognition (objects, scene, etc.) and face recognition — all based on state-of-the-art CNN solutions.

The results are stunning and yield strongly positive customers feedbacks. We would like to share the experiences in the following blogs.

 

從事影像視訊分析研究15年,絕大部分考慮的是未來的應用或是核心的問題,沒想到這一段時間,有機會可以經歷整個智能產品從無到有的過程,協助設計適合使用者相簿管理的深度卷積網路。主要功能當然包括照片類別(物件)辨識,以及人臉辨識。

網路儲存伺服器(NAS) 公司群暉 (Synology) 的客戶中,相當多購買儲存設備是為了備份日益增加的照片以及視訊資料。所以這些數位內容的智能分析技術,就成為產品開發中的「剛需」。

雖然看到這幾年深度學習的突破發展,要設計出「穩定」、「高正確率」的卷積網路,並且將這些技術落實在所有的NAS硬體中,走進全球使用者的家裡、辦公室中,是相當大的挑戰。而且開始前,群暉尚未建立深度學習團隊,所以就有了這次雙方團隊產學合作的機會。

整個過程是相當有趣的,並且看到深度學習技術真正落實在產品 Synology Moments上,推出一個多月,全球使用者有相當好的回饋。內部評估,性能更高於類似的國外相簿雲服務。相關報導請參考

期間我們也學習到諸多經驗,樂意與大家分享。我們也發現兩個產品的實際問題 (open set 以及 multi-label)在未來各種智能辨識的產品開發上,都會是很大的挑戰,所以正式帶回實驗室,希望用更嚴謹的方式,找到更好的解法。

【深度網路設計?】

結論是為了優化產品,得設計自己的深度卷積網路。

原因很簡單,辨識的類別完全不同;絕大分的既有卷積網路為multi-class的問題(每張影像只有一個類別標註,和其他類別是互斥的),但是實際的應用是multi-label(每張影像必須有多個標註),比如說,全家在海灘拍了張照片,裡面有人、小孩、比基尼、球、陽傘、天空、沙灘、海洋、墨鏡等。

訓練標註的資料並非完全正確,如何讓網路訓練的過程中有容錯能力;絕大部份可得的資料是multi-class的,所以對於網路的訓練甚至是誤導,降低正確率。如何在設計的網路中有抗噪的能力?或是訓練的過程如何降低錯誤的影響?bootstrapping的策略為何?

另外某些標註是傾向於物件,只佔了畫面的小範圍(如墨鏡、沙灘球),有些卻是絕大部份的畫面(沙灘),如何正規化區域性以及全域性的卷積學習方式?

效率的問題呢?使用者平台設定為不使用GPU。如何降低運算時間? 我們發現最好的原則是先讓正確率提高,然後找尋同等效能(辨識能力)的等效低運算網路。所以團隊對於各種網路元件的運算量,也得有清楚的涉獵,能正確地評估。

  Posts

1 2 3 6
June 7th, 2018

First Place (#1) in Disguised Face Recognition in CVPR 2018

January 6th, 2019

意想不到的科技部「AI投資潛力獎第一名」

December 16th, 2018

Keep Recruiting for Machine Learning Research Partners for Numerous Visual Sensors

December 16th, 2018

FutureTech Demo and Breakthrough Award (未來科技突破獎)

October 12th, 2018

結合虛與實的試鞋生成網路 (Virtual Try-On Shoe with Generative Neural Networks)

我們都有這樣的困擾,在電子購物的時候,看到一雙好看的鞋子,想買。但是卻又拿不定主意自己穿起來好看嗎?或是搭配某件褲子適合嗎?怎麼讓網路虛擬商城的鞋子,可以有效試在自己的腳上呢? 這個工作的挑戰在於如何使用單張鞋子商品的照片,很自然的合成在使用者的腳上,而且腳可能會有各種姿勢、角度。如何客服這個問題? 很高興大學部專題生(EE) 周晁德 完成了這個 PIVTONS 的虛擬鞋子試穿生成網路,試著解決這個困擾大家很久的問題。 這個有趣的工作也將於十二月初,在澳洲珀斯舉辦 Asian Conference on Computer Vision (ACCV) 2018 以大會演說 (Oral) 的方式跟大家分享這個工作。接下來全新的測試資料集將會公開讓大家使用,如果可以的話,我們也將試試看將整個試穿生成系統上線,讓大家體驗虛擬試鞋的樂趣 — 可以多試穿,多省錢。 我們鼓勵high-risk的研究工作。令人慶幸的是,這工作的發想、資料收集都是專題生獨立完成。當然在過程當中遇到很多GAN生成的問題,網路設計、訓練的問題,幾乎放棄了,還好團隊成員一起想辦法解決,關關難過,關關過(甚至免費擔任model),讓這個兼具技術深度以及商業價值的系統,可以順利完成。 我們也一直努力,讓智能生成(或是辨識)系統,賦予更有意義的應用 […]

September 13th, 2018

Finalist (Top 3) in 2018 IEEE Signal Processing Society Video and Image Processing (VIP) Cup

July 29th, 2018

信手拈來的3D模型搜尋 (Cross-View and Cross-Domain 3D Model Search)

July 27th, 2018

低解析人臉辨識跟解析度放大 (Very Low-Resolution Face Hallucination and Recognition)

June 18th, 2018

Winning Third Place in CVPR 2018 Video Recognition Challenge — Moments in Time

June 13th, 2018

[Video Report] National Investment for the GPU Supercomputer?

June 9th, 2018

Amazing Crowd Size and Positive Feedbacks in the Deep Learning Lecture for GTC 2018 Taipei