今天,面對AI如此重要自動繞線機怎么調(diào)參數(shù)的江湖地位,深度學習作為重要的一個研究分支,幾乎出現(xiàn)在當下所有熱門的AI應(yīng)用領(lǐng)域,其中包含語義理解、圖像識別、語音識別,自然語言處理等等,更有人認為當前的人工智能等同于深度學習領(lǐng)域。如果在這個人工智能的時代,作為一個有理想抱負的程序員,或者學生、愛好者,不懂深度學習這個超熱的話題,似乎已經(jīng)跟時代脫節(jié)了。
但是,深度學習對數(shù)學的要求,包括微積分、線性代數(shù)和概率論與數(shù)理統(tǒng)計等要求,讓大部分的有理想抱負青年踟躕前行。那么問題來了,理解深度學習,到底需不需要這些知識?關(guān)子就不賣了,標題已經(jīng)說明。
前段時間,編輯閑逛各大社區(qū)論壇,發(fā)現(xiàn)一篇非常適合初學者學習的深度學習的回復(fù)帖子,用風趣的白話和例子深入淺出的分析了深度學習的過程,非常通俗易懂。通過與在西門子從事人工智能領(lǐng)域的楊國安老師溝通,獲得內(nèi)容編輯授權(quán),把內(nèi)容重新整理發(fā)布,希望人人都能夠理解深度學習。
關(guān)于深度學習,網(wǎng)上的資料很多,不過貌似大部分都不太適合初學者。楊老師總結(jié)了幾個原因:
1、深度學習確實需要一定的數(shù)學基礎(chǔ)。如果不用深入淺出地方法講,有些讀者就會有畏難的情緒,因而容易過早地放棄。
2、中國人或美國人寫的書籍或文章,普遍比較難一些。
深度學習所需要的數(shù)學基礎(chǔ)并沒有想象中的那么難,只需要知道導數(shù)和相關(guān)的函數(shù)概念即可。高等數(shù)學也沒學過?很好,這篇文章其實是想讓文科生也能看懂,只需要學過初中數(shù)學就完全可以。
其實不必有畏難的情緒,比較推崇李書福的精神,在一次電視采訪中,李書福說:誰說中國人不能造汽車?造汽車有啥難的,不就是四個輪子加兩排沙發(fā)嘛。當然,他這個結(jié)論有失偏頗,不過精神可嘉。
導數(shù)是什么?無非就是變化率。
比如:王小二今年賣了100頭豬,去年賣了90頭,前年賣了80頭。。。變化率或者增長率是什么?每年增長10頭豬,多簡單。這里需要注意有個時間變量---年。王小二賣豬的增長率是10頭/年,也就是說,導數(shù)是10。
函數(shù)y=f(x)=10x+30,這里我們假設(shè)王小二第一年賣了30頭,以后每年增長10頭,x代表時間(年),y代表豬的頭數(shù)。
當然,這是增長率固定的情形,而現(xiàn)實生活中,很多時候,變化量也不是固定的,也就是說增長率不是恒定的。比如,函數(shù)可能是這樣: y=f(x)=5x?2;+30,這里x和y依然代表的是時間和頭數(shù),不過增長率變了,怎么算這個增長率,我們回頭再講?;蛘吣愀纱嘤涀讉€求導的公式也可以。
深度學習還有一個重要的數(shù)學概念:偏導數(shù),偏導數(shù)的偏怎么理解?偏頭疼的偏,還是我不讓你導,你偏要導?都不是,我們還以王小二賣豬為例,剛才我們講到,x變量是時間(年),可是賣出去的豬,不光跟時間有關(guān)啊,隨著業(yè)務(wù)的增長,王小二不僅擴大了養(yǎng)豬場,還雇了很多員工一起養(yǎng)豬。所以方程式又變了:
y=f(x)=5x??2;+8x? + 35x? +30
這里x?代表面積,x?代表員工數(shù),當然x?還是時間。
上面我們講了,導數(shù)其實就是變化率,那么偏導數(shù)是什么?偏導數(shù)無非就是多個變量的時候,針對某個變量的變化率。在上面的公式里,如果針對x?求偏導數(shù),也就是說,員工對于豬的增長率貢獻有多大,或者說,隨著(每個)員工的增長,豬增加了多少,這里等于35---每增加一個員工,就多賣出去35頭豬. 計算偏導數(shù)的時候,其他變量都可以看成常量,這點很重要,常量的變化率為0,所以導數(shù)為0,所以就剩對35x? 求導數(shù),等于35. 對于x?求偏導,也是類似的。
求偏導我們用一個符號表示:比如 y/ x? 就表示y對 x?求偏導。
廢話半天,這些跟深度學習到底有啥關(guān)系?當然有關(guān)系,深度學習是采用神經(jīng)網(wǎng)絡(luò),用于解決線性不可分的問題。關(guān)于這一點,我們回頭再討論,大家也可以網(wǎng)上搜一下相關(guān)的文章。這里主要講講數(shù)學與深度學習的關(guān)系。先給大家看幾張圖:
圖1. 所謂深度學習,就是具有很多個隱層的神經(jīng)網(wǎng)絡(luò)。
圖2.單輸出的時候,怎么求偏導數(shù)
圖3.多輸出的時候,怎么求偏導數(shù)。
后面兩張圖是日本人寫的關(guān)于深度學習的書,感覺寫的不錯,把圖盜來用一下。所謂入力層,出力層,中間層,分別對應(yīng)于中文的:輸入層,輸出層,和隱層。大家不要被這幾張圖嚇著,其實很簡單的。再舉一個例子,就以撩妹為例。男女戀愛我們大致可以分為三個階段:
1.初戀期。相當于深度學習的輸入層。別人吸引你,肯定是有很多因素,比如:身高,身材,臉蛋,學歷,性格等等,這些都是輸入層的參數(shù),對每個人來說權(quán)重可能都不一樣。
2.熱戀期。我們就讓它對應(yīng)于隱層吧。這個期間,雙方各種磨合,柴米油鹽醬醋茶。
3.穩(wěn)定期。對應(yīng)于輸出層,是否合適,就看磨合得咋樣了。大家都知道,磨合很重要,怎么磨合呢?就是不斷學習訓練和修正的過程嘛自動繞線機怎么調(diào)參數(shù)!比如女朋友喜歡草莓蛋糕,你買了藍莓的,她的反饋是negative,你下次就別買了藍莓,改草莓了。
看完這個,有些小伙可能要開始對自己女友調(diào)參了。有點不放心,所以補充一下。撩妹和深度學習一樣,既要防止欠擬合,也要防止過擬合。所謂欠擬合,對深度學習而言,就是訓練得不夠,數(shù)據(jù)不足,就好比,你撩妹經(jīng)驗不足。要做到擬合,送花當然是最基本的,還需要提高其他方面,比如,提高自身說話的幽默感等,因為本文重點并不是撩妹,所以就不展開講了。這里需要提一點,欠擬合固然不好,但過擬合就更不合適了。過擬合跟欠擬合相反,一方面,如果過擬合,她會覺得你有陳冠希老師的潛質(zhì),更重要的是,每個人情況不一樣,就像深度學習一樣,訓練集效果很好,但測試集不行!就撩妹而言,她會覺得你受前任(訓練集)影響很大,這是大忌!如果給她這個印象,你以后有的煩了,切記切記!
深度學習也是一個不斷磨合的過程,剛開始定義一個標準參數(shù)(這些是經(jīng)驗值,就好比情人節(jié)和生日必須送花一樣),然后不斷地修正,得出圖1每個節(jié)點間的權(quán)重。為什么要這樣磨合?試想一下,我們假設(shè)深度學習是一個小孩,我們怎么教他看圖識字?肯定得先把圖片給他看,并且告訴他正確的答案,需要很多圖片,不斷地教他,訓練他,這個訓練的過程,其實就類似于求解神經(jīng)網(wǎng)絡(luò)權(quán)重的過程。以后測試的時候,你只要給他圖片,他就知道圖里面有什么了。
所以訓練集,其實就是給小孩看,帶有正確答案的圖片,對于深度學習而言,訓練集就是用來求解神經(jīng)網(wǎng)絡(luò)的權(quán)重,最后形成模型;而測試集,就是用來驗證模型的準確度。
對于已經(jīng)訓練好的模型,如下圖所示,權(quán)重(w1,w2...)都已知。
圖4
圖5
我們知道,像上面這樣,從左至右容易算出來。但反過來我們上面講到,測試集有圖片,也有預(yù)期的正確答案,要反過來求w1,w2......,怎么辦?
繞了半天,終于該求偏導出場了。目前的情況是:
1.我們假定一個神經(jīng)網(wǎng)絡(luò)已經(jīng)定義好,比如有多少層,每層有多少個節(jié)點,也有默認的權(quán)重和激活函數(shù)(后面講)等。這個沒辦法,剛開始得有一個初始值。你喜歡一個美女,她也不是剛從娘胎里出來的,也是帶有那就得調(diào)整參數(shù)。因為輸入(圖像)確定的情況下,只有調(diào)整參數(shù)才能改變輸出的值。怎么調(diào)整,怎么磨合?剛才我們講到,每個參數(shù)都有一個默認值,我們就對每個參數(shù)加上一定的數(shù)值?,然后看看結(jié)果如何?如果參數(shù)調(diào)大,差距也變大,你懂的,那就得減小?,因為我們的目標是要讓差距變??;反之亦然。所以為了把參數(shù)調(diào)整到最佳,我們需要了解誤差對每個參數(shù)的變化率,這不就是求誤差對于該參數(shù)的偏導數(shù)嘛。
關(guān)鍵是怎么求偏導。圖2和圖3分別給了推導的方法,其實很簡單,從右至左挨個求偏導就可以。相鄰層的求偏導其實很簡單,因為是線性的,所以偏導數(shù)其實就是參數(shù)本身嘛,就跟求解x?的偏導類似。然后把各個偏導相乘就可以了。、
這里有兩個點:一個是激活函數(shù),其實激活函數(shù)也沒啥,就是為了讓每個節(jié)點的輸出都在0到1的區(qū)間,這樣好算賬嘛,所以在結(jié)果上面再做了一層映射,反正都是一對一的。由于激活函數(shù)的存在,所以在求偏導的時候,也要把它算進去,激活函數(shù),一般用sigmoid,也可以用Relu等。激活函數(shù)的求導其實也非常簡單:
求導: f'(x)=f(x)*[1-f(x)]
這個方面,有時間可以翻看一下高數(shù),如果沒時間,直接記住就行了。至于Relu,那就更簡單了,就是f(x) 當x<0的時候y等于0,其他時候,y等于x。當然,你也可以定義你自己的Relu函數(shù),比如x大于等于0的時候,y等于0.01x,也可以。
另一個是學習系數(shù),為什么叫學習系數(shù)?剛才我們上面講到?增量,到底每次增加多少合適?是不是等同于偏導數(shù)(變化率)?經(jīng)驗告訴我們,需要乘以一個百分比,這個就是學習系數(shù),而且,隨著訓練的深入,這個系數(shù)是可以變的。
當然,還有一些很重要的基本知識,比如SGD(隨機梯度下降),mini batch 和 epoch(用于訓練集的選擇),限于篇幅,以后再侃吧。其實參考李宏毅的那篇文章就可以了。其實上面描述的,主要是關(guān)于怎么調(diào)整參數(shù),屬于初級階段。上面其實也提到,在調(diào)參之前,都有默認的網(wǎng)絡(luò)模型和參數(shù),如何定義最初始的模型和參數(shù)?就需要進一步深入了解。不過對于一般做工程而言,只需要在默認的網(wǎng)絡(luò)上調(diào)參就可以,相當于用算法;對于學者和科學家而言,他們會發(fā)明算法,這有很大的難度。向他們致敬!
最后,楊老師推薦一篇非常不錯的文章:《1天搞懂深度學習》,300多頁的ppt,臺灣李宏毅教授寫的,非常棒。不夸張地說,是關(guān)于深度學習最系統(tǒng),也最通俗易懂的文章。
來源:51CTO
1.課程大放送|高樓大廈漫說存儲器結(jié)構(gòu)~
2.要給軟件開發(fā)工程師一些人文關(guān)懷!
3.單片機常用名詞概念解析(不記得趕緊背)
4.請不要在空談 AI 時,錯過下一個時代~
5.還在看編程語言排行榜?out 了
6.2017年第5期《單片機與嵌入式系統(tǒng)應(yīng)用》電子刊新鮮出爐,還有更多優(yōu)惠哦
免責聲明:本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。如涉及作品版權(quán)問題,請與我們聯(lián)系,我們將根據(jù)您提供的版權(quán)證明材料確認版權(quán)并支付稿酬或者刪除內(nèi)容。
評論列表
還沒有評論,快來說點什么吧~