List

Our team won the FIRST PRIZE (with USD $10,000 cash award) in MSR-Bing Image Retrieval Challenge 2013, hosted by Microsoft Research (Redmond) and Bing. The challenge is to judge the relevance of the nearly 80,000 text and image pairs, issued by Microsoft within 12 seconds. Our team is ranked the first with the highest accuracy and least computation cost. The award is presented in person by Microsoft CTO Dr. Harry Shum, in Bellevue, WA, USA.

研究的極限在哪?

很榮幸,我可以在視覺資料的機器智能研究中跟台灣最好的研究團隊一起工作。我一直深信我們的學生們有著最好的資質、數理基礎,而且使用著最好的計算設備。

在資訊領域,我們清楚知道競爭對手以及機會都是來自於全世界!

但是同樣的資質、同樣的環境,每個人的差異在哪? 九年多來,我發現每個優異的生命,表現決定於「為自己劃下的那一條線在哪裏」或是「給自己多少的勇氣與機會」。

照片是我們團隊參加2013年美國微軟研究院所舉辦的「影像搜尋競賽」(MSR-Bing Image Retrieval Challenge),會參加這個比賽的原因是有人發現這個第一次舉辦的研究競賽,第一名獎金是一萬美金,所以就興起組隊參加的念頭。

既然組隊,我們就要衝出最好的結果。

為這項競賽,我們必須在實驗室內準備一套系統接收微軟由遠端送進來的近八萬筆文字和影像資料,然後在12秒內判別出每筆文字和影像間的相關度。考驗我們的工程能力以及大規模影像搜尋技術。我們利用廣達慷慨捐贈的廣達雲(感謝廣達研究院院長Dr. Ted Chang的傾力協助),事先在兩千三百萬筆訓練資料上進行機器學習,準備好多種影像辨識引擎以及檢索資料。

當然在這些大量的Web影像中要有正確的比對是十分困難的。團隊嘗試過各種方法都無法將正確率往上推升,僵持中,放棄總是最廉價的選項。在最後幾天,赫然發現傳統方法在這些影像上的局限性,進而大膽採用了不同的機器學習策略,結果停滯許久的正確率開始往上提升。最後結果揭曉,在全球參賽者中以最短時間以及最高正確率獲得年度冠軍。

之後團隊受邀到西雅圖接受微軟技術長(CTO) Dr. Harry Shum(照片左三)親自頒獎。左一的Kuan-Yu Chu碩士班畢業之後直接被美國微軟延攬,左二Yan-Ying Chen 的也在博士班畢業之後直接到矽谷的FXPAL研究中心擔任研究員。當然還包括Chun-Che Wu, Yin-Hsi Kuo, Wen-Yu Lee

極限在哪?我深信,止於為自己劃下的那一條線。

 

  Tag: search

2 posts
April 15th, 2017

Pushing for the best — 極限在哪?

Our team won the FIRST PRIZE (with USD $10,000 cash award) in MSR-Bing Image Retrieval Challenge 2013, hosted by Microsoft […]

March 28th, 2017

Search by impression (媽媽們需要的影像搜索技術)

想像一下,如果在家裡一堆數位照片中,要翻出某張照片,你得花費多少時間? 家中有小孩的家庭,常會為了尋找照片而煩惱(例如繳交寒暑假作業)。尤其是家中數位相片持續大量累積中,這個問題其實越來越麻煩。 明明心中想著那張照片的畫面,可是怎麼也找不到! 我們在2011年聽到許多媽媽們(還有爸爸們)的需要,提出了search by impression的概念。在幾十萬張的照片中,協助快速找到那張記憶中的畫面。同時也補足文字標註、人臉辨識、以及以圖找圖技術的不足。 相當多的統計指出,使用者照片中帶有人像的照片大概超過80%。而且MIT的研究也發現,多年之後,有人臉的照片是大家最記得的。 所以我們設計了全新的使用者照片的搜尋方式,按照使用者印象中的畫面,利用人臉位置、大小、排出記憶中的輪廓,結合人臉屬性偵測,檢索前每張人臉自動偵測出性別、種族、膚色、年紀、打扮等,來額外輔助描述記憶中的畫面。例如印象中姊妹淘出遊的畫面,三位(年輕)女性緊靠在一起;爺爺奶奶和孫子的合照,爺爺(資深男性)在左,奶奶(資深女性)在右等。 Demo影片可以清楚呈現實際的使用畫面。 解決實際問題的研究不容於學術的頂級殿堂嗎? 當我們為了確保在幾十萬張的照片中依舊維持搜索的正確率以及效率,我們就得嘗試設計第一次同時為偵測出的人臉屬性、高維度人臉特徵值、人臉位置、大小等截然不同的資料型態建立全新整合的檢索方式。如何評估效能?如何設計全新的UI? 當嚴謹地面對這些挑戰,自然會在重要的場合讓人驚豔。初試啼聲,就在美國亞利桑那舉辦的頂級多媒體會議ACM Multimeida 獲得Grand Challenge 首獎[1]。完整的技術也在搜尋技術的大會ACM SIGIR以Full Paper (Oral)發表[2]。因為是全新在觸控螢幕上的搜尋技術,我們也申請了美國專利,也曾經讓某家矽谷領導品牌的影像公司談到技術授權。 嚴謹跟解決實際問題並不衝突。 […]