searchsearch

www.hkeasychat.com

人工智能寒冬中的守夜人????從學術棄子到圖靈宗師(9k字) - 手機數碼電腦討論區

登入     註冊



人工智能寒冬中的守夜人????從學術棄子到圖靈宗師(9k字)

笑看人生458發表於 2019-10-30 22:17:12

秦農序


前期“科學Sciences”介紹了密歇根大學學士,麻省理工學院(MIT)博士、美國數學家、電子工程師和密碼學家,被譽為信息論創始人、數字計算機理論和數字電路設計理論的創始人,天才人物克勞德??艾爾伍德??香農(Claude Elwood Shannon, 1916.4.30-2001.2.24)的12條從工作到生活中可借鑒的經驗《克勞德??香農10000小時訪談︰天才如何思考、工作和生活????五年寫書學到12條教訓》,和他眾多發明創造中的典型《“忒修斯Theusus”早期機器學習演示????克勞德??香農1950年的模仿遊戲》。本期“科學Sciences”介紹 谷李虎《AI寒冬中的守夜人????從學術棄子到圖靈宗師》,闡釋深度神經網絡的誕生、被學界業界鄙視、到一戰成名捧得圖靈獎的人工智能技術歷程。歡迎繼續閱讀秦隴紀《神經網絡之父Geoffrey Hinton杰弗里??欣頓跨過人工智能寒冬談深度學習》,包括辛頓(Hinton)簡歷及其個人主頁推薦的30篇深度學習論文列表。以期幫助科學愛好者和工作者,能從思維方法上接近科學技術殿堂。

AI寒冬中的守夜人????從學術棄子到圖靈宗師

文|原創︰ 谷李虎,源|少年 谷夢,科學Sciences??201910-29Tue

人工智能寒冬中的守夜人????從學術棄子到圖靈宗師(9k字)

2004年冬天的多倫多,天空飄著大雪,寒風刺骨。比天氣更冷的,是正在肆虐的第二次AI寒冬,對于辛頓(Hinton)來說,這已經是他多倫多大學度過的第十七個冬天了。

還記得十七年前,人工智能兩大學派正式決裂,“仿生學派”與”理性學派”決戰華山之巔,結果仿生學派兵敗如山倒,從此再也得不到美國政府和產業界的任何經費資助,幾乎所有仿生學派的教授學者都紛紛堅持不住,退出了江湖。

幾乎所有的人,除了辛頓。

1987年,在確認了所有美國的科研院校都不再資助神經網絡類型的人工智能研究後,辛頓義無反顧地來到了加拿大多倫多大學,只因為這里依然可以資助他所堅信的研究方向。

然而好景不長,本以為來到“世外桃源”就可以安心研究,可這場學術之爭終究燒到了加拿大,自九十年代中期後,加拿大政府也不再資助神經網絡的研究了,與此同時,更為慘淡的是,就連華山論劍中的勝者也地位不保;人們發現理性主義陣營的代表之作“專家系統”也被發現根本沒有學習新知識的能力,至多算的是個知識稍微豐富一點的“死字典”。

曾經,在八十年代早中期,人們對人工智能曾經給予了厚望,日本甚至將人工智能列為首要的國家發展戰略,狂熱之後,便是一地雞毛。在投入了超過了數十億美元卻毫無進展之後,心寒的人們選擇不再相信,緊接著便是八十年代晚期到兩千年世代早期的第二次AI寒冬。

在多倫多和AI最凜冽的寒風中,在理性主義者的“異端歧視”下,在整個社會都失去信心的時光中,辛頓沒有放棄,相反,一個大膽而宏偉的計劃卻在他的腦海中形成了。

一個可以讓仿生學派浴火重生的計劃。

一個可以讓人工智能重回歷史浪潮的科技革命。

一個可以改變人類命運的偉大變革。

“就差這麼一個機會了。”

AI寒冬里的守夜人,深度學習革命的奠基人

想發動一場成功的科技革命,就像發動任何一場成功的革命一樣,僅僅有堅定的信仰還是不夠的,還需要盟友,錢,還得拉的起一支打仗過硬的隊伍。

辛頓依然有一個強大的盟友,加拿大政府。

2004年,在辛頓的推動下,加拿大政府重啟了塵封多年的神秘學術組織CIFAR(CanadianInstitute for Advanced Research)。

在CIFAR的資助一下,辛頓終于拿到了一小筆可以用于計算神經學研究的經費了。有了錢,終于可以招兵買馬,養博士博後,買設備攢數據,專心研究了。

然而理性主義流派的狙擊,也才剛剛開始。

還記得曾經感知機,那個單層的,線性的,不可訓練的神經網絡雛形嗎?經過一代仿生人不懈的發展,配合非線性激活函數,多層堆疊,以及辛頓發展出的反向傳播訓練技術,兩千年初期的神經網絡已經解決單層限制,線性限制,和不可訓練這三大瓶頸。

然而新的瓶頸也一點不客氣滴橫在仿生學派者的面前︰多層的神經網絡難以訓練,層數越深的神經網絡就越是難以訓練。

想重振神經網絡,就必須解決深度神經網絡的訓練問題。

然而在理性主義者看來,這根本就是一個不可能解決的問題︰反向傳播的數學本質就是微積分中的鏈式法則,而層數越是加深就越是會出現梯度消失和梯度爆炸的問題。

理性主義者狠狠地抓住這個弱點不放,在2004至2006年,關于神經網絡的論文統統遭到了人工智能頂級期刊ICML的拒絕。

“克服深度神經網絡不可訓練這一錯誤信念,在人工智能發展的歷史上是至關重要的。我們之前給ICML呈送了一篇論文,結果同行把這篇論文拒收了,只是因為這是關于神經網絡的。事實上,如果你觀察去年的ICML期刊,一篇在標題有“神經網絡”的論文都沒有,所以ICML不受任何與神經網絡有關的論文。” 辛頓在一次授課中說道。

面對神經網絡自身巨大不足和理性主義者的極限打壓下,辛頓沒有自我懷疑。他想到的,是他的初心。這位1947年出生的教授,自少年時代想知道大腦是怎麼工作的,然而學生時代學習的生理學和心理學卻都不能解答自己心中的疑問,于是人工智能,成了他畢生的追求。

作為一個仿生學派者,他堅信智能是從類似人腦一樣的大型神經網絡/復雜聯結中孕育而生的。然而,他的博士生導師Higgins卻是一個堅定的理性主義者,認為智能應該從嚴密的形式邏輯和符號系統中推導而生。遺憾的是,那時候還處于萌芽期的仿生學派,其主力模型感知機(perceptron)是一種單層的,線性的,不可訓練的神經網絡雛形。

理性主義巨擘,麻省理工人工智能實驗室創始人馬文??明斯基(Marvin Minsky),敏捷地抓住了感知機的漏洞和不足,指出感知機模型連最基本的非線性函數,異或函數(XOR function)都無法擬合,于是曾經遙遙領先的仿生學派學派兵敗如山倒,而理性主義者又適時地推出了專家系統(Expert System)這一“得意之作”佔領學術界和工業界的制高點,這才有了開始的那一幕,學術棄子辛頓敗走楓葉之城。

然而辛頓沒有放棄,英雄之所以是英雄,就是因為他們是為這樣的時刻而生!

偉大的品牌重塑︰深度神經網絡 + 機器學習 = 深度學習

打鐵還需自身硬,先解決神經網絡自身的不足。

既然多層深度神經網絡難以訓練,為什麼一定要全網絡端到端訓練,而不是先進行逐層預訓練呢?

聰明的辛頓先將每一層的神經網絡初始化為限制級玻爾茲曼機進行預訓練,在每層都初始化後再進行最終的端到端訓練,雖然在我們2019年的的大數據,大算力時代這看起來十分原始青澀,卻是那個時代(2004~2006)最好的方案了。

然而理性主義者偏見猶存,論文屢屢被拒。

就在這最黑暗的時候,革命家辛頓又出手了。

2006年,以辛頓為第一作者,深度學習革命的開篇之作,“A Fast Learning Algorithm for Deep Belief Nets”橫空出世,經過仿生派學者幾十年的苦心打磨,他們終于能夠推出一版可訓練,可學習的“深度”神經網絡。為了昭示這樣的神經網絡和歷史上淺層的或難以訓練的神經網絡的不同,仿生學派者們取了“深度神經網絡”的“深度”和“機器學習”的“學習”,創造出了“深度學習”之新品牌,成為了仿生學派最新的主力模型。

就在仿生學派者彈冠相慶,慶祝自家學派終于取得了巨大的歷史性突破時,理性主義者卻不以為意,與最新崛起的統計學習流派結盟,大力發展以SVM(SupportVector Machine)為代表的Kernel Method. SVM天生就有簡單優雅的數學表示和深厚的數學基礎,天生就對把邏輯和推理視作生命的理性主義學派有著致命的吸引力。與此相反,亂糟糟的,東拼西湊的,沒有數學基礎的深度學習,在理性主義者看來,就像弗蘭肯斯坦生物實驗室里的一頭猙獰怪獸,不僅毫無美感,也不可能指向真正的強人工智能。

于是乎,雖然仿生學派的深度學習開始展露頭腳,可理性主義者聯合統計學家的SVM卻也出手不凡,在很多技術指標上都超過了深度學習算法。

理性主義者依舊不把仿生學派者放在眼里,這場百年的恩恩怨怨,似乎還沒有結束。

這是一場深度學習與SVM之間的巔峰對決,作為仿生派與理性派最先進,最前沿的當家模型,誰能取得勝利,誰就能贏得AI武林的下一個二十年!

面對理性派的藐視,辛頓沒有說話,他揮了揮衣袖,仿生派大軍壓境。

“屠榜”。

屠榜

馬上就要進行最後的戰略決戰,辛頓瞄準了機器學習感知最核心的兩個任務,語音識別和圖像分類。

辛頓找來了自己的博後LeCun負責圖像,而自己的在AT&T的老部下Bengio來搞自然語言處理。

就在兩派在為最後的決戰做著準備的時候,“數據女工” 李飛飛也在加緊建設她的圖像數據庫ImageNet,為兩派的最後一戰搭好擂台。

為了備戰,辛頓對深度學習進行的大刀闊斧的改革。

他瞄準了備受對手詬病的梯度消失和梯度爆炸問題。

可訓練性是機器學習模型的生命之魂,曾經的感知機便是摔倒于此,如今的深度學習絕不能重蹈覆轍。

辛頓發現,是神經網絡層與層之間的非線性聯結函數Sigmoid出了問題,在聯結函數的選擇上,仿生派似乎理性派附體,太過注重聯結函數的連續,可微,和光滑屬性,然而這樣的“好”的數學性質卻會在多層的非線性嵌套下“失去光澤”,長尾的sigmoid在連續微分下只能是爆炸或消失的命運。

Sigmoid中看不中用。

一番思考後,辛頓選擇了ReLU函數作為新的非線性聯結函數,一個連續,零點不可導,零點不光滑的“丑陋”函數。

理性主義者笑掉了大牙,猙獰怪獸上唯一好看的花紋也被辛頓畫成了小丑。

可他們很快就笑不出來了,辛頓的選擇不無道理,ReLU的導數恰好是Step函數,非0即1,0代表神經元睡眠,1代表神經元激活,不拖泥帶水,就是這麼簡單粗暴。

稍稍加強了己方的弱點,還沒歇兩口氣,他們就很快就遇到了新的問題。算力不足。

語音識別和圖像分類可不比曾經的數字識別之類的簡單小任務,數據量呈數量級的增長,傳統的CPU訓練硬件早已難以為繼,長達數月的模型訓練周期空耗著研究者的青春,革命面臨著糧草不足的窘境。

好比渴望稱霸宇宙的滅霸需要集齊六顆無限寶石,已經擁有深度學習算法之靈魂寶石的辛頓也需要超強算力,這顆力量寶石,才能問鼎人工智能的王者巔峰。

一位辛頓的學生發現,與其用CPU,我們其實可以用高性能GPU顯卡進行並行計算從而高效地訓練深度學習模型。

100倍的提升,兩個數量級!曾經三個月才能訓練好的模型如今只需一天就可出爐了。

顯卡大廠Nvidia也抓住了這個歷史機遇,推出CUDA擴展包,每年都迭代升級GPU,從而保證了深度學習的強大算力。

力量寶石,就此開啟。

隨著算法的優化和算力的提升,辛頓和仿生學派者們發現,其實曾經的神經網絡逐層預訓練其實沒有必要。

只要數據集足夠大,采用優化後的非線性優化函數ReLU,以及強大的算力加持,全網絡端到端的深度學習就能爆發出神經網絡的最大潛能。

從此集齊靈魂寶石算法,力量寶石算力,和大數據現實寶石的辛頓,正式奠基了現代意義上的深度學習。

靈魂寶石算法 + 力量寶石算力 + 現實寶石數據 = 深度學習

2009年的時候,深度學習就在語音識別的任務上表現出了戰平甚至超越傳統算法的表現。而在此後,遞歸神經網絡,長短期記憶神經網絡等神經網絡變種長期霸佔榜單第一,也成了工業界的標配。

真正的拐點是2012年。

作為唯一一個仿生學派的參賽團隊,辛頓團隊在ImageNet圖像識別任務以正確率84.6%(Top 5 Acurracy)榮獲了第一名的好成績,而第二名僅僅為73.8%。此後卷積神經網絡一騎絕塵,一直霸榜至今,準確率也達到了98%(2019年,Top 5 Accuracy)甚至超過了人類的平均水平。

學術界高潮了。

人工智能界太久沒有見過這麼巨大的突破了,大批學者和學生大批涌入,產業界的巨額投入,風靡全球的科技浪潮,以及各國政府的宏觀政策和國家戰略,等等等等,最初的濫觴,都源于有這麼一個人,在多倫多最冷的冬天,依然有著一份對神經網絡火一般的執著!

一部40年的神經網絡發展史。

一部仿生學派與理性學派相愛相殺60年的華麗史詩。

一部人工智能與科技革命的百年浪潮。

到了今天,終于來到他生命中的高光時刻。

“如果你有一個創意你覺得肯定是對的,就不用讓別人來告訴你是傻的。忽略他們就好了。”

???? Geoffrey E. 辛頓,深度學習之父,2018年圖靈獎得主

人工智能寒冬中的守夜人????從學術棄子到圖靈宗師(9k字)

相關內容:
上一篇:小米9周年的格局甚至僵局能不能靠MIX alpha和5G版米9 Pro打響
下一篇:國產柔性OLED有多值錢?

更多帖子推薦

手機數碼電腦討論區最新帖子快速翻頁:
234567891011121314151617

手機數碼電腦討論區

人工智能寒冬中的守夜人????從學術棄子到圖靈宗師(9k字) -END- 

香港交友討論區hkeasychat - 香港社交論壇forum本交友論壇採用forum形式運作,會員所講所post交友話題、發起的交友活動與本交友網立場無關 本頁面任何內容(包括但不限於:『留言、文章』)不代表廣告商同意立場及觀點,本頁面可能出現間接宣傳。hkeasychat旗下討論區業務集團之一 - hkeasychat 香港交友討論區 聯絡我們