魯迅的文章和人工智能會有聯(lián)系嗎?在中國科學院院士、清華大學教授張鈸看來,答案是肯定的。
在魯迅的一篇文章中,當孩子滿月的時候,凡是說孩子將來會發(fā)財、做官的,都得到了主人的感謝或恭維,而唯一說出事實——“孩子將來是要死的”的人遭到了一頓合力的痛打。
張鈸開玩笑說,在當下人工智能大躍進的局面下,既要說實話,又不想挨一頓合力的痛打,是需要勇氣的。盡管如此,“我還是既要把人工智能的優(yōu)點和成果說夠,也要把它存在的問題說透?!?/p>
在10月20~22日于山西太原舉行的2016中國計算機大會(CNCC2016)上,和張鈸有同樣勇氣的還有其他一些人工智能領域的“大咖”。他們將問題的核心,都指向了人工智能在后深度學習時代的走向。
“彎道超車”還是又一個日本“五代機”
作為我國計算機領域目前規(guī)模最大、級別最高的學術會議,創(chuàng)建于2003年、由中國計算機學會(CCF)主辦的中國計算機大會一向是業(yè)內(nèi)人士暢所欲言的舞臺。雖然今年CNCC2016的主題是“計算改變未來”,但人工智能卻成了事實上的焦點。
“今年不管開什么會、誰組織、在哪里開,只要和人工智能掛上邊,都很火爆?!敝袊茖W院副院長、中國科學院院士譚鐵牛對人工智能當下的熱度深有感觸。不過,作為人工智能專家,他深刻地意識到,“與其說人工智能火,不如說是深度學習火。”
從技術上來看,深度學習就是“很多層”的神經(jīng)網(wǎng)絡。而神經(jīng)網(wǎng)絡實質(zhì)上是多層函數(shù)嵌套形成的數(shù)學模型。事實上,在深度學習出現(xiàn)之前,人工智能已經(jīng)經(jīng)歷了兩次熱潮。在此期間,日本于1981年提出第五代計算機研究計劃, 并為此投資了540億日元。當時,人工智能研究的先驅(qū)者之一愛德華·費根鮑姆認為,這項計劃即使部分實現(xiàn),也將產(chǎn)生巨大經(jīng)濟利益,使日本占有市場,并奪得統(tǒng)治地位。美國如不自強,事態(tài)將極為嚴重,在超工業(yè)化社會中只能處于農(nóng)業(yè)大國的地位。然而,最終這一計劃還是以失敗告終。這也意味著人工智能的流派之一符號主義方法進入了瓶頸期。
而今,隨著深度學習的出現(xiàn),人工智能又迎來了“春天”。這是一個“彎道超車”的機會還是又一個日本的“五代機”?張鈸認為,“這兩種可能都存在,因為科學發(fā)現(xiàn)和技術創(chuàng)新總是通過默默無聞的勞作和堅持不懈的努力取得的,只有這樣才有可能成功?!?/p>
在張鈸看來,與30年前相比,現(xiàn)在的人工智能有兩點不同,一是大數(shù)據(jù),二是概率統(tǒng)計方法的引入。正是這兩個因素催生了當下的深度學習大潮。
然而,深度學習所解決的問題卻有一定的范圍限制,即在一定的應用場景里,在給定的數(shù)據(jù)庫下,有了可利用的大數(shù)據(jù),計算機的感知信息處理程度才有可能達到人類的水平。正因為它的局限性,“從狹義的人工智能走向通用人工智能,就成為后深度學習時代所要致力的問題。”張鈸說。
不會“一統(tǒng)江湖、千秋萬載”
“從本質(zhì)上說,(人工智能)第二次和第三次浪潮在方法論上并沒有本質(zhì)區(qū)別,都屬于連接主義。差別在于深度學習的成功。這里既有硬件的進步,也有卷積神經(jīng)網(wǎng)絡模型與參數(shù)訓練技巧的進步。”中國工程院院士、北京大學教授高文認為。但他同時表示,連接主義(神經(jīng)網(wǎng)絡、深度學習)雖然大行其道,但如何解決小數(shù)據(jù)學習和創(chuàng)造性思維仍然挑戰(zhàn)巨大。
在南京大學教授、美國計算機協(xié)會(ACM)杰出科學家周志華看來,發(fā)展至今天,作為人工智能領域一個重要的分支,“機器學習”已經(jīng)成為一個廣袤的學科領域,而“深度學習”僅是機器學習中的一個小分支。
在機器學習出現(xiàn)之前,人工智能的研究者們意識到,要想提升人工智能水平,僅有邏輯推理能力是不夠的,而要總結出知識再“教”給系統(tǒng),也同樣困難。到了20世紀90年代中后期,人類發(fā)現(xiàn)自己淹沒在了數(shù)據(jù)的汪洋中,機器學習正是為了滿足人們對自動數(shù)據(jù)分析技術的需求應運而生的。而云計算、大數(shù)據(jù)時代的到來,計算能力的大幅提升,使得深度學習模型在計算機視覺、自然語言處理、語音識別等眾多領域都取得了較大的成功。
但是,深度學習是否會“一統(tǒng)江湖、千秋萬載”呢?周志華認為,深度學習最重要的作用是“表示學習”,即能自動學習和表達特征。當數(shù)據(jù)的“初始表示”(如圖像的“像素”)與解決任務所需的“合適表示”(如描述物體的特征)相距甚遠的時候,就是深度學習應用的領域。然而,很多學習任務,數(shù)據(jù)的“初始表示”與“合適表示”并沒有那么遠,因此深度學習不會“一統(tǒng)江湖”,其他一些機器學習技術也有自己的“用武之地”。未來深度學習可能有“冬天”,因為它僅是機器學習中的一種技術,更“潮”的技術總會出現(xiàn)。而機器學習不會有“冬天”,除非我們不再需要分析數(shù)據(jù)。
高文最近和美國國家科學基金會(NSF)接觸發(fā)現(xiàn),美國現(xiàn)在對于深度學習有很大的爭議。雖然在機器學習領域,NSF仍然支持深度學習的基礎理論研究,但認為在應用領域(如計算機視覺、語音識別、計算語言學等)使用深度學習解決實際問題已經(jīng)不算創(chuàng)新,此類項目基本上都會被“殺掉”?!斑@給了我們一個信號,也許幾年之后深度學習真的會進入沉寂期?!?/p>
未來走向
張鈸認為,在后深度學習時代,人工智能主要面臨三大挑戰(zhàn),一是概率統(tǒng)計方法帶來的困難,即它只能找出重復出現(xiàn)的特征,發(fā)現(xiàn)數(shù)據(jù)間統(tǒng)計的關聯(lián)性,卻不能發(fā)現(xiàn)本質(zhì)特征,找到因果關系。其次是生數(shù)據(jù)帶來的困難,實際上,網(wǎng)絡數(shù)據(jù)中只有34%是有用的, 66%則是虛假、無用的,這會嚴重影響識別的效果。三是不能舉一反三,進行領域遷移。而要想實現(xiàn)突破,人工智能發(fā)展除了需要知識驅(qū)動與數(shù)據(jù)驅(qū)動結合從而“雙輪驅(qū)動”外,更加要依靠學科交叉,特別是數(shù)學、認知科學、心理學、神經(jīng)科學和語言學等。
從深度學習的發(fā)展歷史來看,深度學習是相對最容易利用新增計算能力的機器學習方法。因此,周志華預測,未來的主流技術未必是深度學習,但應該是能有效利用 GPU 等計算設備的方法。
此外,隨著人工智能技術取得巨大發(fā)展,將越來越多地面臨“高風險應用”,因此必須有“魯棒的人工智能”。對此,周志華的理解是,“好的時候”要好,“壞的時候”也不能太壞。而開放環(huán)境下的機器學習研究,是通向“魯棒人工智能”途徑上的關鍵環(huán)節(jié)之一。
談及機器學習的形態(tài),周志華認為,模型和規(guī)約相結合的學件的出現(xiàn),將會改變機器學習目前算法加數(shù)據(jù)的現(xiàn)狀,從而突破機器學習的一些局限,如需要大量訓練樣本,難以適應環(huán)境變化,模型不透明等。今后,當用戶想要應用一個模型的時候,他可以先到“學件”市場找一找有無合適的,或者選擇一個現(xiàn)成的模型加以修改后使用。而“學件”的誕生,很可能會催生出一個新的類似軟件產(chǎn)業(yè)的新產(chǎn)業(yè)。