List

Amazing crowd size in the deep leaning session in GTC 2018 Taipei, where I had a 50-min lecture on how to effectively collect quality training data and devise efficient algorithms for learning in deep learning paradigms.

Happy to see that laughters are around and nobody left during my 50-min talk (~500+ attendees).

三月底在San Jose舉辦的NVIDIA GTC 2018中,我們發表了50分鐘的技術演說,分析如何有效率的採集關鍵性的深度(機器)學習訓練資料以及訓練方式,在現場也滿滿感受到這股強烈的需求,會後還獲得許多正面的評價。

五月底GTC在台北。三十號下午,主辦單位給了我55分鐘的時間,我分享這幾年將深度網路技術落地到產品上,所遇到的問題以及解決之道。更感謝業界的朋友也不吝分享他們的開發經驗。

在技術上,我們主要整理了四種資料對策:首先由社群媒體上的公開影像、視訊、對話等下載所需的資料,再透過群眾外包完成標註。其次是利用弱監督(weakly supervised)或是半監督(semi-supervised)的算法,利用少量的標註資料(或是包含其它未標註的大量資料)進行學習訓練,以降低昂貴費時的資料標註。再來是使用不同(接近線性)的轉換方式,產生更多(但是近似)的資料。最後,也是目前看來最有機會的,善用3D圖像生成,或是生成對抗網路(GAN)來生成跟多互補性的訓練資料。

我們回顧這幾年頂尖論文的實驗以及理論的支持,更搭配了產品開發的真實範例。