魯迅的文章和人工智能會有聯(lián)系嗎?在中國科學(xué)院院士、清華大學(xué)教授張鈸看來,答案是肯定的。
在魯迅的一篇文章中,當(dāng)孩子滿月的時候,凡是說孩子將來會發(fā)財、做官的,都得到了主人的感謝或恭維,而唯一說出事實——“孩子將來是要死的”的人遭到了一頓合力的痛打。
張鈸開玩笑說,在當(dāng)下人工智能大躍進(jìn)的局面下,既要說實話,又不想挨一頓合力的痛打,是需要勇氣的。盡管如此,“我還是既要把人工智能的優(yōu)點和成果說夠,也要把它存在的問題說透?!?/p>
在10月20~22日于山西太原舉行的2016中國計算機(jī)大會(CNCC2016)上,和張鈸有同樣勇氣的還有其他一些人工智能領(lǐng)域的“大咖”。他們將問題的核心,都指向了人工智能在后深度學(xué)習(xí)時代的走向。
“彎道超車”還是又一個日本“五代機(jī)”
作為我國計算機(jī)領(lǐng)域目前規(guī)模最大、級別最高的學(xué)術(shù)會議,創(chuàng)建于2003年、由中國計算機(jī)學(xué)會(CCF)主辦的中國計算機(jī)大會一向是業(yè)內(nèi)人士暢所欲言的舞臺。雖然今年CNCC2016的主題是“計算改變未來”,但人工智能卻成了事實上的焦點。
“今年不管開什么會、誰組織、在哪里開,只要和人工智能掛上邊,都很火爆?!敝袊茖W(xué)院副院長、中國科學(xué)院院士譚鐵牛對人工智能當(dāng)下的熱度深有感觸。不過,作為人工智能專家,他深刻地意識到,“與其說人工智能火,不如說是深度學(xué)習(xí)火?!?/p>
從技術(shù)上來看,深度學(xué)習(xí)就是“很多層”的神經(jīng)網(wǎng)絡(luò)。而神經(jīng)網(wǎng)絡(luò)實質(zhì)上是多層函數(shù)嵌套形成的數(shù)學(xué)模型。事實上,在深度學(xué)習(xí)出現(xiàn)之前,人工智能已經(jīng)經(jīng)歷了兩次熱潮。在此期間,日本于1981年提出第五代計算機(jī)研究計劃, 并為此投資了540億日元。當(dāng)時,人工智能研究的先驅(qū)者之一愛德華·費根鮑姆認(rèn)為,這項計劃即使部分實現(xiàn),也將產(chǎn)生巨大經(jīng)濟(jì)利益,使日本占有市場,并奪得統(tǒng)治地位。美國如不自強(qiáng),事態(tài)將極為嚴(yán)重,在超工業(yè)化社會中只能處于農(nóng)業(yè)大國的地位。然而,最終這一計劃還是以失敗告終。這也意味著人工智能的流派之一符號主義方法進(jìn)入了瓶頸期。
而今,隨著深度學(xué)習(xí)的出現(xiàn),人工智能又迎來了“春天”。這是一個“彎道超車”的機(jī)會還是又一個日本的“五代機(jī)”?張鈸認(rèn)為,“這兩種可能都存在,因為科學(xué)發(fā)現(xiàn)和技術(shù)創(chuàng)新總是通過默默無聞的勞作和堅持不懈的努力取得的,只有這樣才有可能成功?!?/p>
在張鈸看來,與30年前相比,現(xiàn)在的人工智能有兩點不同,一是大數(shù)據(jù),二是概率統(tǒng)計方法的引入。正是這兩個因素催生了當(dāng)下的深度學(xué)習(xí)大潮。
然而,深度學(xué)習(xí)所解決的問題卻有一定的范圍限制,即在一定的應(yīng)用場景里,在給定的數(shù)據(jù)庫下,有了可利用的大數(shù)據(jù),計算機(jī)的感知信息處理程度才有可能達(dá)到人類的水平。正因為它的局限性,“從狹義的人工智能走向通用人工智能,就成為后深度學(xué)習(xí)時代所要致力的問題?!睆堚撜f。
不會“一統(tǒng)江湖、千秋萬載”
“從本質(zhì)上說,(人工智能)第二次和第三次浪潮在方法論上并沒有本質(zhì)區(qū)別,都屬于連接主義。差別在于深度學(xué)習(xí)的成功。這里既有硬件的進(jìn)步,也有卷積神經(jīng)網(wǎng)絡(luò)模型與參數(shù)訓(xùn)練技巧的進(jìn)步?!敝袊こ淘涸菏俊⒈本┐髮W(xué)教授高文認(rèn)為。但他同時表示,連接主義(神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí))雖然大行其道,但如何解決小數(shù)據(jù)學(xué)習(xí)和創(chuàng)造性思維仍然挑戰(zhàn)巨大。
在南京大學(xué)教授、美國計算機(jī)協(xié)會(ACM)杰出科學(xué)家周志華看來,發(fā)展至今天,作為人工智能領(lǐng)域一個重要的分支,“機(jī)器學(xué)習(xí)”已經(jīng)成為一個廣袤的學(xué)科領(lǐng)域,而“深度學(xué)習(xí)”僅是機(jī)器學(xué)習(xí)中的一個小分支。
在機(jī)器學(xué)習(xí)出現(xiàn)之前,人工智能的研究者們意識到,要想提升人工智能水平,僅有邏輯推理能力是不夠的,而要總結(jié)出知識再“教”給系統(tǒng),也同樣困難。到了20世紀(jì)90年代中后期,人類發(fā)現(xiàn)自己淹沒在了數(shù)據(jù)的汪洋中,機(jī)器學(xué)習(xí)正是為了滿足人們對自動數(shù)據(jù)分析技術(shù)的需求應(yīng)運而生的。而云計算、大數(shù)據(jù)時代的到來,計算能力的大幅提升,使得深度學(xué)習(xí)模型在計算機(jī)視覺、自然語言處理、語音識別等眾多領(lǐng)域都取得了較大的成功。
但是,深度學(xué)習(xí)是否會“一統(tǒng)江湖、千秋萬載”呢?周志華認(rèn)為,深度學(xué)習(xí)最重要的作用是“表示學(xué)習(xí)”,即能自動學(xué)習(xí)和表達(dá)特征。當(dāng)數(shù)據(jù)的“初始表示”(如圖像的“像素”)與解決任務(wù)所需的“合適表示”(如描述物體的特征)相距甚遠(yuǎn)的時候,就是深度學(xué)習(xí)應(yīng)用的領(lǐng)域。然而,很多學(xué)習(xí)任務(wù),數(shù)據(jù)的“初始表示”與“合適表示”并沒有那么遠(yuǎn),因此深度學(xué)習(xí)不會“一統(tǒng)江湖”,其他一些機(jī)器學(xué)習(xí)技術(shù)也有自己的“用武之地”。未來深度學(xué)習(xí)可能有“冬天”,因為它僅是機(jī)器學(xué)習(xí)中的一種技術(shù),更“潮”的技術(shù)總會出現(xiàn)。而機(jī)器學(xué)習(xí)不會有“冬天”,除非我們不再需要分析數(shù)據(jù)。
高文最近和美國國家科學(xué)基金會(NSF)接觸發(fā)現(xiàn),美國現(xiàn)在對于深度學(xué)習(xí)有很大的爭議。雖然在機(jī)器學(xué)習(xí)領(lǐng)域,NSF仍然支持深度學(xué)習(xí)的基礎(chǔ)理論研究,但認(rèn)為在應(yīng)用領(lǐng)域(如計算機(jī)視覺、語音識別、計算語言學(xué)等)使用深度學(xué)習(xí)解決實際問題已經(jīng)不算創(chuàng)新,此類項目基本上都會被“殺掉”?!斑@給了我們一個信號,也許幾年之后深度學(xué)習(xí)真的會進(jìn)入沉寂期?!?/p>
未來走向
張鈸認(rèn)為,在后深度學(xué)習(xí)時代,人工智能主要面臨三大挑戰(zhàn),一是概率統(tǒng)計方法帶來的困難,即它只能找出重復(fù)出現(xiàn)的特征,發(fā)現(xiàn)數(shù)據(jù)間統(tǒng)計的關(guān)聯(lián)性,卻不能發(fā)現(xiàn)本質(zhì)特征,找到因果關(guān)系。其次是生數(shù)據(jù)帶來的困難,實際上,網(wǎng)絡(luò)數(shù)據(jù)中只有34%是有用的, 66%則是虛假、無用的,這會嚴(yán)重影響識別的效果。三是不能舉一反三,進(jìn)行領(lǐng)域遷移。而要想實現(xiàn)突破,人工智能發(fā)展除了需要知識驅(qū)動與數(shù)據(jù)驅(qū)動結(jié)合從而“雙輪驅(qū)動”外,更加要依靠學(xué)科交叉,特別是數(shù)學(xué)、認(rèn)知科學(xué)、心理學(xué)、神經(jīng)科學(xué)和語言學(xué)等。
從深度學(xué)習(xí)的發(fā)展歷史來看,深度學(xué)習(xí)是相對最容易利用新增計算能力的機(jī)器學(xué)習(xí)方法。因此,周志華預(yù)測,未來的主流技術(shù)未必是深度學(xué)習(xí),但應(yīng)該是能有效利用 GPU 等計算設(shè)備的方法。
此外,隨著人工智能技術(shù)取得巨大發(fā)展,將越來越多地面臨“高風(fēng)險應(yīng)用”,因此必須有“魯棒的人工智能”。對此,周志華的理解是,“好的時候”要好,“壞的時候”也不能太壞。而開放環(huán)境下的機(jī)器學(xué)習(xí)研究,是通向“魯棒人工智能”途徑上的關(guān)鍵環(huán)節(jié)之一。
談及機(jī)器學(xué)習(xí)的形態(tài),周志華認(rèn)為,模型和規(guī)約相結(jié)合的學(xué)件的出現(xiàn),將會改變機(jī)器學(xué)習(xí)目前算法加數(shù)據(jù)的現(xiàn)狀,從而突破機(jī)器學(xué)習(xí)的一些局限,如需要大量訓(xùn)練樣本,難以適應(yīng)環(huán)境變化,模型不透明等。今后,當(dāng)用戶想要應(yīng)用一個模型的時候,他可以先到“學(xué)件”市場找一找有無合適的,或者選擇一個現(xiàn)成的模型加以修改后使用。而“學(xué)件”的誕生,很可能會催生出一個新的類似軟件產(chǎn)業(yè)的新產(chǎn)業(yè)。