轉(zhuǎn)自舌頭分割手術(shù)視頻過程:新智元(AI_era)
作者:胡祥杰
Jue Wang
Director of Megvii Research US
1新智元報(bào)道
【新智元導(dǎo)讀】孫劍之后,F(xiàn)ace++再迎來(lái)一名重量級(jí)計(jì)算機(jī)視覺研究者——王玨博士。他將領(lǐng)導(dǎo)Face++位于美國(guó)的研究院,與孫劍負(fù)責(zé)的中國(guó)研究院相呼應(yīng)。專訪中,王玨與新智元分享舌頭分割手術(shù)視頻過程了他對(duì)研究與應(yīng)用的看法:他習(xí)慣于一直看到技術(shù)的最終應(yīng)用場(chǎng)景,從而來(lái)確定技術(shù)的走向,而不是僅僅局限于技術(shù)的本身。針對(duì)創(chuàng)業(yè)公司缺乏數(shù)據(jù)的難題,王玨博士也給出了可行的解決方案建議,比如,將一個(gè)渲染引擎嵌入到機(jī)器學(xué)習(xí)的框架里面,使得渲染引擎能夠根據(jù)學(xué)習(xí)的需要?jiǎng)討B(tài)生成數(shù)據(jù)。
根據(jù)新智元獲得的獨(dú)家消息,前Adobe首席科學(xué)家王玨已經(jīng)確認(rèn)加盟國(guó)內(nèi)計(jì)算機(jī)視覺和深度學(xué)習(xí)初創(chuàng)企業(yè)曠視科技(Face++)。
這是繼2016年7月前微軟亞洲研究院(MSRA)視覺組的首席研究員、華人深度學(xué)習(xí)科研的領(lǐng)軍人物孫劍之后,又一名加入曠視科技的重量級(jí)研究員。根據(jù)曠視科技的介紹,2017年4月,在 Adobe 度過了 9 年半研究生涯的王玨博士低調(diào)離職,加入曠視(Face++)并帶領(lǐng)曠視美國(guó)研究院(Megvii Research US)。
王玨曾就讀清華,2007 年在美國(guó)華盛頓大學(xué)獲得博士學(xué)位,隨即加入 Adobe Research。憑借其出色的研究成果,在短短 6 年間,從助理研究員連升數(shù)級(jí)做到首席科學(xué)家 (Principal Scientist),據(jù)介紹,他是 Adobe Research 歷史上升職最快的科學(xué)家之一。
王玨同時(shí)在三個(gè)領(lǐng)域的最高級(jí)別會(huì)議和期刊發(fā)表論文:計(jì)算機(jī)視覺,計(jì)算機(jī)圖形學(xué) (包括 11 篇 SIGGRAPH ) 和人機(jī)交互,其研究成果廣泛應(yīng)用于 Adobe 的各項(xiàng)產(chǎn)品中,為 Adobe 近10年的影像處理軟件升級(jí)提供了強(qiáng)有力的技術(shù)支持。例如,2010年 Adobe 隆重發(fā)布的第一個(gè)商用動(dòng)態(tài)視頻去背景技術(shù) Roto brush,以及2013年發(fā)布的第一款商用圖像去模糊工具 Shake Reduction, 都是由王玨主導(dǎo)完成的。
選擇曠視:孫劍不遠(yuǎn)萬(wàn)里到西雅圖親自邀請(qǐng),“內(nèi)心是無(wú)法拒絕的”
2016年底,王玨博士萌生了離開 Adobe 的想法?!癆dobe Research 提供了一個(gè)非常舒適和優(yōu)越的研究環(huán)境,但是當(dāng)舌頭分割手術(shù)視頻過程你已經(jīng)通過了它為你帶來(lái)的所有考驗(yàn)之后,需要在一個(gè)新的環(huán)境里面繼續(xù)充實(shí)和提高自己?!?王玨這樣評(píng)價(jià)自己的離職訴求。
這個(gè)想法傳開后,王玨博士收到了許多公司的邀請(qǐng),既有 Google, Facebook,以及騰訊和阿里這樣的行業(yè)巨頭,也有中美的多家創(chuàng)業(yè)公司。那么王玨博士最終選擇曠視的原因是什么呢舌頭分割手術(shù)視頻過程?王玨博士是這樣解釋的:
“主要是三個(gè)方面的原因。一是和曠視有天然的親近感。曠視是一幫有才華的清華年輕人創(chuàng)立的,在企業(yè)文化中有清華行勝于言,腳踏實(shí)地的價(jià)值觀。對(duì)于作為清華校友的我來(lái)講,對(duì)于這樣的文化有天然的熟悉和親近感。二是孫劍博士的誠(chéng)意邀請(qǐng)。我和孫劍博士認(rèn)識(shí)和同行多年,彼此都比較熟悉,他不遠(yuǎn)萬(wàn)里到西雅圖來(lái)邀請(qǐng)我,我內(nèi)心是無(wú)法拒絕的。第三是機(jī)遇。我個(gè)人覺得中國(guó)目前人工智能研究的環(huán)境,從數(shù)據(jù)規(guī)模到商業(yè)機(jī)會(huì)都比美國(guó)要好,但是在人才儲(chǔ)備上仍然不占優(yōu)勢(shì)。能夠幫助中國(guó)的人工智能公司,特別是初創(chuàng)公司更進(jìn)一步,在美國(guó)吸引頂尖人才為我所用,對(duì)中國(guó)高科技發(fā)展是一件里程碑性質(zhì)的事情。這樣的機(jī)會(huì)在人生中并不多見,碰到了就應(yīng)該抓住”。
回顧自己的職業(yè)生涯,王玨博士深有感觸: “我個(gè)人的研究生涯是從美國(guó)公司在中國(guó)的研究院 (微軟亞洲研究院)開始,現(xiàn)在又加入中國(guó)公司在美國(guó)的研究院。這樣一個(gè)交替,見證了中國(guó)科技和商業(yè)在過去 15 年的高速發(fā)展。”
不追求將招聘重心放在頂級(jí)專家上,對(duì)于初創(chuàng)公司來(lái)講,戰(zhàn)斗力決定一切
王玨現(xiàn)在帶領(lǐng)曠視的美國(guó)研究院,與孫劍負(fù)責(zé)的曠視中國(guó)研究院相互呼應(yīng)。那么,曠視的這個(gè)美國(guó)研究院目標(biāo)和定位是什么?
王玨在接受新智元的采訪時(shí)說(shuō):“曠視美國(guó)研究院肩負(fù)著多重使命。最基本的一點(diǎn),就是要為公司開拓新的市場(chǎng),發(fā)展新的業(yè)務(wù)提供強(qiáng)有力的技術(shù)支持。也就是說(shuō),美國(guó)研究院要對(duì)曠視北京研究院形成互補(bǔ),需要獨(dú)立承擔(dān)一些新方向的研發(fā)工作,而不僅僅是對(duì)現(xiàn)有的研究?jī)?nèi)容錦上添花。在此之上,我們也希望通過自己的努力,提高曠視在世界范圍內(nèi)AI產(chǎn)業(yè)和科研中的話語(yǔ)權(quán)。最后,要為公司吸引一些在海外的優(yōu)秀人才為我所用?!?/p>
他還說(shuō),目前團(tuán)隊(duì)在快速擴(kuò)張中,我們的目標(biāo)是在較短時(shí)間內(nèi)形成一個(gè)有戰(zhàn)斗力的團(tuán)隊(duì)。這個(gè)團(tuán)隊(duì)將包括多領(lǐng)域的精兵強(qiáng)將:計(jì)算機(jī)視覺,圖形學(xué),計(jì)算攝像學(xué),機(jī)器學(xué)習(xí)以及多媒體等,當(dāng)然我們也十分注重團(tuán)隊(duì)的層次感,要既有老將,也有新兵,既有科學(xué)家,也有工程師。
在人才招聘的標(biāo)準(zhǔn)上,王玨有著獨(dú)特的觀點(diǎn),他說(shuō),我認(rèn)為的最佳招聘是為公司找到契合度最高的人才。我們首先希望候選人對(duì)我們?cè)谧龅氖虑橛懈叨日J(rèn)同感。其次,我們希望候選人除了在學(xué)術(shù)研究上已經(jīng)有所建樹之外,能夠有把東西真正搞work的強(qiáng)烈興趣和一定的工程能力。最后,要有那么一點(diǎn)點(diǎn)極客精神。對(duì)于即將畢業(yè)的研究生來(lái)說(shuō),發(fā)表多少論文不重要,我們希望看到候選人獨(dú)立思考和全身心投入解決一個(gè)問題的態(tài)度和過程。
他接著說(shuō)道,頂級(jí)的視覺專家你們新智元已經(jīng)報(bào)道過很多了,但是我們不追求將招聘重心放在頂級(jí)專家上。把10個(gè)頂級(jí)專家放在一起,未必能形成一個(gè)有戰(zhàn)斗力的團(tuán)隊(duì)。對(duì)于初創(chuàng)公司來(lái)講,戰(zhàn)斗力決定一切。
曠視美國(guó)研究院成立兩個(gè)多月了,它的現(xiàn)狀是什么呢?王玨博士說(shuō):“我們的理念是行勝于言,認(rèn)真做事。我特別喜歡公司發(fā)的筆記本上面的一句話: Talk is cheap, show me the code. 成立短短兩個(gè)多月,我們已經(jīng)成立了一個(gè)小的團(tuán)隊(duì),已經(jīng)為曠視的產(chǎn)品提供了多項(xiàng)技術(shù)輸出,學(xué)術(shù)界也將很快看到我們的論文和研究成果。” 關(guān)于未來(lái),“我們希望能盡快聚攏一批優(yōu)秀的人,建立一個(gè)有意思的研究環(huán)境,一起做一些有意思而且有意義的大事情”。
做視覺的覺得我是做圖形學(xué)的,做圖形學(xué)的覺得我是做視覺的,兩邊人都來(lái)了我就說(shuō)自己做人機(jī)交互
在 Adobe 9 年多的時(shí)間里,王玨博士手把手帶領(lǐng)過 31 位博士實(shí)習(xí)生,發(fā)表了了 65 篇學(xué)術(shù)論文,獲得了 58 項(xiàng)美國(guó)專利,實(shí)現(xiàn)了 13 項(xiàng)重要技術(shù)的研發(fā)和產(chǎn)品轉(zhuǎn)換。在眾多的技術(shù)之中,王玨博士對(duì)2013年發(fā)布的去模糊技術(shù) Shake Reduction 情有獨(dú)鐘。這項(xiàng)技術(shù)由王玨博士在2012年 Adobe MAX 技術(shù)大會(huì)上向 5000 多名觀眾公開演示。然而,讓王玨博士記憶猶新的原因并不在此。
王玨博士回憶說(shuō):“在13年底的某一天,我被叫到一個(gè)會(huì)議室,見到了公司的多位高管。老板用投影儀投出了一張模糊的圖片,說(shuō)祝賀你,F(xiàn)BI 用你的技術(shù)恢復(fù)了這張圖片的細(xì)節(jié),從而根據(jù)其中的線索在 Kansas 解救了兩名被綁架的兒童。聽到這個(gè)消息,我整個(gè)人感覺像是被電流擊中一般,好幾天都處于非??簥^的狀態(tài)”?!坝米约旱募夹g(shù)讓這個(gè)世界美好了一點(diǎn)點(diǎn),這對(duì)于科研人員來(lái)講,是一件非常有幸福感的事情”。在此之后,F(xiàn)BI 曾多次使用該技術(shù)輔助案件的偵破工作。
王玨博士形容自己是經(jīng)常走在岔道上的人,因?yàn)樗难芯颗d趣非常廣泛?!白鲆曈X的覺得我是做圖形學(xué)的,做圖形學(xué)的覺得我是做視覺的,兩邊人都來(lái)了我就說(shuō)自己做人機(jī)交互?!?王玨博士這樣打趣自己?!拔乙恢币詠?lái)都不給自己的研究加太多的限制,只關(guān)注于做自己感興趣的事情,自己能做的事情,用心做”。形成這樣的研究風(fēng)格也和王玨博士的經(jīng)歷有關(guān),他在清華自動(dòng)化系跟隨李衍達(dá)院士的課題組研究醫(yī)學(xué)成像,在微軟研究院跟隨王堅(jiān)博士(現(xiàn)阿里巴巴技術(shù)委員會(huì)主席)做手寫筆、和徐迎慶老師(現(xiàn)清華美術(shù)學(xué)院信息藝術(shù)設(shè)計(jì)系主任)做動(dòng)畫,在華盛頓大學(xué)電子工程系跟隨圖形學(xué)泰斗 Michael Cohen (1998年圖形學(xué)終身成就獎(jiǎng)得主) 研究計(jì)算攝像學(xué),“好像從來(lái)沒有務(wù)過本專業(yè)的正業(yè)”。
長(zhǎng)期跨領(lǐng)域的研究,使得王玨博士在研究上總是喜歡多思考一些問題?!氨热缭谧鲆粋€(gè)算法的時(shí)候,我不僅會(huì)考慮算法性能,還會(huì)考慮算法能否支持有效的用戶交互,這往往是傳統(tǒng)的計(jì)算機(jī)視覺研究人員容易忽視的問題。而這,也許是算法是否能夠落地的關(guān)鍵?!?
王玨對(duì)新智元說(shuō):“做技術(shù)研究的時(shí)候,我習(xí)慣于一直看到技術(shù)的最終應(yīng)用場(chǎng)景,從而來(lái)確定技術(shù)的走向,而不是僅僅局限于技術(shù)的本身。比如從視頻分割這個(gè)視覺經(jīng)典問題講起。分割不是最終目的,有多種可能的應(yīng)用,而不同的應(yīng)用對(duì)于算法精度和復(fù)雜度的要求是不同的。在Adobe的時(shí)候,我們希望分割結(jié)果能夠直接應(yīng)用在好萊塢的電影制作上,那么這個(gè)應(yīng)用對(duì)于分割精度的要求就非常高。而全自動(dòng)的算法無(wú)論如何總是會(huì)出錯(cuò)的。如何能在交互環(huán)境下有效的進(jìn)行視頻分割就成了一個(gè)有意思的問題,一方面要求算法能夠在少量用戶干預(yù)下快速收斂到精確結(jié)果,另一方面也要求系統(tǒng)提供一種直觀和有效的交互方式,使得算法能夠輔助用戶進(jìn)行高效的工作?!?/p>
“落地”,未來(lái)成功產(chǎn)品轉(zhuǎn)化率希望能做到 50%
在和王玨博士的交流中,“落地”這個(gè)詞出現(xiàn)了好幾次?!耙鲅芯?,首先要研究清楚自己”,王玨博士這樣說(shuō)。“研究分為很多種,有理論研究,基礎(chǔ)技術(shù)研究,基于好奇心的探索性研究,也有面向應(yīng)用的研究。每個(gè)人的喜好和特長(zhǎng)是不一樣的,應(yīng)該選擇適合自己的研究道路。我是一個(gè)比較純粹的實(shí)用主義者,所以特別喜歡應(yīng)用驅(qū)動(dòng)的研究,通俗的講,就是能落地的研究?!?
在王玨博士看來(lái),能落地首先是選題的問題?!皞ゴ蟮膶?shí)用技術(shù)都有一個(gè)最基本的要素,就是他們解決的問題一定是用戶的剛需。要做能落地的研究,首選需要理解和關(guān)注用戶的痛點(diǎn)。工業(yè)界實(shí)驗(yàn)室之所以能誕生很多實(shí)用技術(shù),是因?yàn)樗麄兏N近用戶,理解什么是真正對(duì)用戶有價(jià)值的問題,而不是閉門造車?!?在進(jìn)入 Adobe 規(guī)劃第一個(gè)項(xiàng)目之前,王玨博士花了一個(gè)月的時(shí)間走訪了多家使用 Adobe 產(chǎn)品的影視機(jī)構(gòu),觀察他們的工作流程,傾聽他們對(duì)現(xiàn)有產(chǎn)品的吐槽,這才將動(dòng)態(tài)視頻去背景這個(gè)全行業(yè)的痛點(diǎn)作為首要研究的課題。
落地是一個(gè)艱難的過程。在王玨博士看來(lái),一篇優(yōu)秀的學(xué)術(shù)論文最多只解決了一半的問題,在落地過程還有大量的細(xì)節(jié)難關(guān)需要攻克,而攻克這些問題既需要靈感和巧妙的解決問題的思路,也需要大量的工程經(jīng)驗(yàn)與實(shí)踐積累。有的時(shí)候,甚至需要全盤推翻學(xué)術(shù)論文里面提出的解決方法。在2016年做全景圖拼接的邊緣正則化這個(gè)項(xiàng)目中,王玨博士帶領(lǐng)團(tuán)隊(duì)在研究了學(xué)術(shù)界最新研究成果后,提出了一種巧妙的替代算法,實(shí)現(xiàn)了計(jì)算速度百倍的提升,也使得這個(gè)研究成果成為今天 Adobe Lightroom 里面廣受歡迎的新功能。
“有一次在一個(gè)國(guó)際會(huì)議上遇到一家大公司 AI lab的manager, 聊天的時(shí)候我感嘆我自己參與的項(xiàng)目只有大概 25% 的成功產(chǎn)品轉(zhuǎn)化率,那位 mananger 很驚訝,因?yàn)樗麄兡抢镞@個(gè)數(shù)字只有大概 10%?!?王玨博士未來(lái)的目標(biāo),就是將這個(gè)轉(zhuǎn)化率翻一倍,希望能達(dá)到 50%。
新智元對(duì)50%的成功產(chǎn)品轉(zhuǎn)化率感到好奇,王玨博士進(jìn)一步解釋說(shuō),要達(dá)到這個(gè)目標(biāo),核心還是在團(tuán)隊(duì)的構(gòu)建。如果單單是把10個(gè)頂級(jí)視覺專家放在一起,那么這個(gè)目標(biāo)是沒法達(dá)到了。一方面是團(tuán)隊(duì)必須包含從初期研發(fā)到最終落地所需要的全部人才,更重要的一點(diǎn),是每個(gè)團(tuán)隊(duì)成員都要認(rèn)可研究落地這個(gè)共同目標(biāo),并為之努力。特別是對(duì)科學(xué)家來(lái)說(shuō),能夠放下身段,傾聽客戶的聲音,從客戶需求中去尋找自己的研究課題,才能保證研究的實(shí)用性。這也是華為精神在曠視內(nèi)部廣受推崇的原因。
計(jì)算機(jī)視覺的未來(lái):有必要跳出視覺的圈子,從大系統(tǒng)的角度來(lái)看視覺,才不會(huì)有“只緣生在此山中”的錯(cuò)覺
作為在計(jì)算機(jī)視覺技術(shù)上有著多年積累的資深研究者,王玨博士也與新智元分享了他對(duì)當(dāng)下這一技術(shù)發(fā)展趨勢(shì)的看法。
首先,今年的CVPR上,ImageNet大規(guī)模圖像識(shí)別比賽被宣布終止,有專家解讀說(shuō),未來(lái)業(yè)界會(huì)朝向視覺理解進(jìn)軍。那么,王玨博士如何看待計(jì)算機(jī)視覺的未來(lái)?
他說(shuō):“計(jì)算機(jī)視覺近幾年發(fā)展很快,也有很多人預(yù)測(cè)未來(lái)的發(fā)展方向,我覺得他們說(shuō)得都很有道理。我只想提一點(diǎn),有的時(shí)候有必要跳出視覺的圈子,從大系統(tǒng)的角度來(lái)看視覺,才不會(huì)有“只緣生在此山中”的錯(cuò)覺。最近比較火的無(wú)人車和無(wú)人店就是很好的兩個(gè)例子,兩個(gè)都是系統(tǒng)工程,視覺是重要一環(huán),但是如何將視覺技術(shù)和其他技術(shù)有效融合,才是其是否能成功的關(guān)鍵?!?/p>
從視覺本身這個(gè)領(lǐng)域來(lái)看,王玨博士覺得基于視頻的視覺理解是一個(gè)重要的中長(zhǎng)期方向。他說(shuō),現(xiàn)實(shí)世界中沒有生物是通過一張靜態(tài)圖片來(lái)認(rèn)知的,這個(gè)世界的很多規(guī)則和信息都包含著時(shí)序序列中。舉個(gè)簡(jiǎn)單例子,你和一個(gè)人面對(duì)面交談,他的復(fù)雜情緒變化你很容易從微小的面部表情感知。而拍一張圖片,大家喊一句“茄子”就可以蒙混過關(guān)。對(duì)于視頻的精細(xì)化理解,目前還處于起步階段,還有很長(zhǎng)的路要走。
計(jì)算機(jī)視覺在中國(guó)存在過剩嗎?
計(jì)算機(jī)視覺技術(shù)在中國(guó)非常火熱,有資料統(tǒng)計(jì),幾乎一半以上的AI公司都在這一領(lǐng)域發(fā)力,那么,在中國(guó)市場(chǎng),這一技術(shù)存在過剩嗎?
王玨博士認(rèn)為,計(jì)算機(jī)視覺技術(shù)做的人多是因?yàn)樗_實(shí)有很明確的應(yīng)用場(chǎng)景,已經(jīng)有很多成功的商業(yè)化樣例。從這個(gè)角度來(lái)講,他不覺得有過剩。他說(shuō),其實(shí)在計(jì)算機(jī)應(yīng)用領(lǐng)域的研究上,產(chǎn)學(xué)研結(jié)合得非常緊密,如果有過剩的話市場(chǎng)機(jī)制會(huì)慢慢矯正。等到哪天學(xué)視覺的同學(xué)找工作比較困難了,那就是真正過剩了。
關(guān)于這一技術(shù)的落地,他認(rèn)為,目前落得非常好的是人臉的識(shí)別和認(rèn)證,這件事的價(jià)值非常大,可以對(duì)多個(gè)行業(yè)帶來(lái)巨大影響,現(xiàn)在是安防和金融,即將是零售和服務(wù)業(yè)。無(wú)人駕駛是另一個(gè)很清晰的落地點(diǎn)?!跋鄬?duì)于醫(yī)療,我更看好視覺在工業(yè)和農(nóng)業(yè)機(jī)器人領(lǐng)域的落地前景。相對(duì)于給人看病,我覺得先給農(nóng)作物看病更容易實(shí)現(xiàn)”,王玨說(shuō)。
最后,王玨博士也與新智元分享了他對(duì)數(shù)據(jù)的看法。他說(shuō),大公司會(huì)通過開源技術(shù),封閉數(shù)據(jù)來(lái)打擊潛在的競(jìng)爭(zhēng)對(duì)手。對(duì)于初創(chuàng)公司,如果沒有明確在商業(yè)計(jì)劃書里面提到數(shù)據(jù)來(lái)源我會(huì)感到不可思議。其中的一個(gè)方案是可以想辦法造數(shù)據(jù)。對(duì)于計(jì)算機(jī)圖形學(xué)來(lái)說(shuō),這是一個(gè)機(jī)會(huì)。以前圖形學(xué)的渲染主要是給人看,未來(lái)會(huì)有越來(lái)越多的渲染是給機(jī)器看。一個(gè)有意思的問題是如何將一個(gè)渲染引擎嵌入到機(jī)器學(xué)習(xí)的框架里面,使得渲染引擎能夠根據(jù)學(xué)習(xí)的需要?jiǎng)討B(tài)生成數(shù)據(jù)。這方面學(xué)術(shù)界已經(jīng)有一些嘗試,他感覺潛力十分巨大。
了解更多曠視美國(guó)研究院相關(guān)信息
Power Human with AI.
www.megvii.com
評(píng)論列表
還沒有評(píng)論,快來(lái)說(shuō)點(diǎn)什么吧~