List

In the past months, we are helping a Taipei-based leading Network Attached Storage (NAS) company, Synology, for realizing convolutional neural networks into there key products — Synology Moments,which aims to provide effective and efficient solutions for manipulating hugely growing consumer photos in their products. The needs are strong and solid as the customers care the most for the photos and videos in the private (backup) storage. We help enable image recognition (objects, scene, etc.) and face recognition — all based on state-of-the-art CNN solutions.

The results are stunning and yield strongly positive customers feedbacks. We would like to share the experiences in the following blogs.

 

從事影像視訊分析研究15年,絕大部分考慮的是未來的應用或是核心的問題,沒想到這一段時間,有機會可以經歷整個智能產品從無到有的過程,協助設計適合使用者相簿管理的深度卷積網路。主要功能當然包括照片類別(物件)辨識,以及人臉辨識。

網路儲存伺服器(NAS) 公司群暉 (Synology) 的客戶中,相當多購買儲存設備是為了備份日益增加的照片以及視訊資料。所以這些數位內容的智能分析技術,就成為產品開發中的「剛需」。

雖然看到這幾年深度學習的突破發展,要設計出「穩定」、「高正確率」的卷積網路,並且將這些技術落實在所有的NAS硬體中,走進全球使用者的家裡、辦公室中,是相當大的挑戰。而且開始前,群暉尚未建立深度學習團隊,所以就有了這次雙方團隊產學合作的機會。

整個過程是相當有趣的,並且看到深度學習技術真正落實在產品 Synology Moments上,推出一個多月,全球使用者有相當好的回饋。內部評估,性能更高於類似的國外相簿雲服務。相關報導請參考

期間我們也學習到諸多經驗,樂意與大家分享。我們也發現兩個產品的實際問題 (open set 以及 multi-label)在未來各種智能辨識的產品開發上,都會是很大的挑戰,所以正式帶回實驗室,希望用更嚴謹的方式,找到更好的解法。

【深度網路設計?】

結論是為了優化產品,得設計自己的深度卷積網路。

原因很簡單,辨識的類別完全不同;絕大分的既有卷積網路為multi-class的問題(每張影像只有一個類別標註,和其他類別是互斥的),但是實際的應用是multi-label(每張影像必須有多個標註),比如說,全家在海灘拍了張照片,裡面有人、小孩、比基尼、球、陽傘、天空、沙灘、海洋、墨鏡等。

訓練標註的資料並非完全正確,如何讓網路訓練的過程中有容錯能力;絕大部份可得的資料是multi-class的,所以對於網路的訓練甚至是誤導,降低正確率。如何在設計的網路中有抗噪的能力?或是訓練的過程如何降低錯誤的影響?bootstrapping的策略為何?

另外某些標註是傾向於物件,只佔了畫面的小範圍(如墨鏡、沙灘球),有些卻是絕大部份的畫面(沙灘),如何正規化區域性以及全域性的卷積學習方式?

效率的問題呢?使用者平台設定為不使用GPU。如何降低運算時間? 我們發現最好的原則是先讓正確率提高,然後找尋同等效能(辨識能力)的等效低運算網路。所以團隊對於各種網路元件的運算量,也得有清楚的涉獵,能正確地評估。

  Posts

1 2 3 4 5
April 17th, 2017

How to invent the nXet great thing? 創意如何延伸發想?

How to invent the nXet great thing when you meet something, X, great? 創意如何延伸發想? 當看到某樣令人讚嘆的成果,那下一個創意在那裡? 我們的工作受惠於近年來形形色色攝影裝置的快速增長、大量的影音視訊資料,所以各種偵測、分析、搜尋、探勘的機器智慧能力應運而生。但是創意在那裡? 幾年前聽過MIT教授Ramesh Raskar的 “Idea Hexagon” […]

April 15th, 2017

Pushing for the best — 極限在哪?

Our team won the FIRST PRIZE (with USD $10,000 cash award) in MSR-Bing Image Retrieval Challenge 2013, hosted by Microsoft […]

April 15th, 2017

Our CVPR 2017 Paper: Cross-Modality Convolution for 3D Biomedical Segmentation

Excited to share our recent work, “Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation,” accepted for CVPR 2017. […]

April 15th, 2017

Sketch-based retrieval — 心之所欲

Seeing several sharing regarding Google’s AutoDraw, we like to share our various solutions for sketch-based retrieval for image, products, and […]

April 15th, 2017

The beast and the beauty for video search and recognition

We have been working on content analysis (machine intelligence over large-scale image/video streams) since 2002 as having my PhD in […]

April 4th, 2017

50-min presentation in GTC (GPU Technology Conference) 2017, San Jose

Our GTC (GPU Technology Conference) 2017 scheduled confirmed. 50 min talk scheduled on Monday, May 8, 9:00 AM – 9:50 […]

March 29th, 2017

“Casual” Comparison for Visual recognition APIs (影像辨識API評比)

A few industry friends inquired me how to choose visual recognition APIs for enhancing their analysis capability in the image/video […]

March 29th, 2017

Sammy winning Google PhD Fellowship 2017!

What a wonderful day to know that our former master student, Yu Chuan Su, was awarded Google PhD Fellowship 2017. […]

March 28th, 2017

Search by impression (媽媽們需要的影像搜索技術)

想像一下,如果在家裡一堆數位照片中,要翻出某張照片,你得花費多少時間? 家中有小孩的家庭,常會為了尋找照片而煩惱(例如繳交寒暑假作業)。尤其是家中數位相片持續大量累積中,這個問題其實越來越麻煩。 明明心中想著那張照片的畫面,可是怎麼也找不到! 我們在2011年聽到許多媽媽們(還有爸爸們)的需要,提出了search by impression的概念。在幾十萬張的照片中,協助快速找到那張記憶中的畫面。同時也補足文字標註、人臉辨識、以及以圖找圖技術的不足。 相當多的統計指出,使用者照片中帶有人像的照片大概超過80%。而且MIT的研究也發現,多年之後,有人臉的照片是大家最記得的。 所以我們設計了全新的使用者照片的搜尋方式,按照使用者印象中的畫面,利用人臉位置、大小、排出記憶中的輪廓,結合人臉屬性偵測,檢索前每張人臉自動偵測出性別、種族、膚色、年紀、打扮等,來額外輔助描述記憶中的畫面。例如印象中姊妹淘出遊的畫面,三位(年輕)女性緊靠在一起;爺爺奶奶和孫子的合照,爺爺(資深男性)在左,奶奶(資深女性)在右等。 Demo影片可以清楚呈現實際的使用畫面。 解決實際問題的研究不容於學術的頂級殿堂嗎? 當我們為了確保在幾十萬張的照片中依舊維持搜索的正確率以及效率,我們就得嘗試設計第一次同時為偵測出的人臉屬性、高維度人臉特徵值、人臉位置、大小等截然不同的資料型態建立全新整合的檢索方式。如何評估效能?如何設計全新的UI? 當嚴謹地面對這些挑戰,自然會在重要的場合讓人驚豔。初試啼聲,就在美國亞利桑那舉辦的頂級多媒體會議ACM Multimeida 獲得Grand Challenge 首獎[1]。完整的技術也在搜尋技術的大會ACM SIGIR以Full Paper (Oral)發表[2]。因為是全新在觸控螢幕上的搜尋技術,我們也申請了美國專利,也曾經讓某家矽谷領導品牌的影像公司談到技術授權。 嚴謹跟解決實際問題並不衝突。 […]

March 27th, 2017

Data-Drive Strategy(以資料制資料 )

在機器智能的運用上,困難的問題,一般會利用(1)採用更複雜的模型(如數十層的類神經網路),或是(2)提供更多標註過的訓練資料。但是資料標註的代價(所需準備的時間以及金錢)是相當昂貴的。尤其時間是產業應用上,時間是相當貴重的成本。 另一個想法:如果可以善用Internet上隨手可得的資料,有時候複雜困難的問題,會有意想不到的突破! 之前我們嘗試解決人臉辨識上一個未解的問題—「跨年紀人臉辨識」。如果使用face verification的定義的話, 我們得決定任兩張(相距五到十年)的照片,是否屬於同一人。 大家可以參考看看這張照片,猜測一下,屬於同一個人嗎? 跨年紀人臉辨識,在兩年前還是十分困難的問題。過去以來,大家考慮的是尋找逼近老化的方程式,或是找出不受年齡影響 (age-invariant)的人臉特徵表示方法。可是人類老化是個複雜的model,所以一直無法突破。 我們 (Sirius Chen 以及 Dr. Chu-Song Chen) 則大膽採用了另一個全新的策略。我們以網路上隨手可得的名人照片來表示(解釋)人像;比如說某個人鼻子長得像明星A、嘴巴像明星B、下巴像明星C,等(約數百位名人)。如此一來,沒有例外,大家都會經過類似的老化過程。因此這個人和名人A、B、C等在某個部位還是維持相似性。我們就用這樣的表示法來代表人臉特徵值(過程使用sparse coding、 high-dimensional LBP、max pooling實現)。 […]