大數(shù)據(jù)發(fā)展遭遇瓶頸 如何突破壁壘迎新生? 2016年09月19日11:06 來源:中國智能制造網(wǎng)|
已經(jīng)上升成為國家戰(zhàn)略,社會各界對大數(shù)據(jù)的期待上升到了前所未有的高度。如何務(wù)實推動大數(shù)據(jù)戰(zhàn)略落地,成為接下來的政策重點。
1、引言
2015年,我國《促進大數(shù)據(jù)發(fā)展行動綱要》出臺,十八屆五中全會進一步提出要在“十三五”期間實施國家大數(shù)據(jù)戰(zhàn)略,大數(shù)據(jù)一路上升成為國家戰(zhàn)略,社會各界對大數(shù)據(jù)的期待上升到了前所未有的高度。如何推動大數(shù)據(jù)戰(zhàn)略落地成為未來幾年的政策重點。本文重溫了大數(shù)據(jù)的內(nèi)涵,分析了大數(shù)據(jù)的局限性,結(jié)合國內(nèi)大數(shù)據(jù)發(fā)展面臨的瓶頸,提出了相關(guān)的策略建議。
2、把握概念本質(zhì),深刻認識大數(shù)據(jù)的戰(zhàn)略價值
大數(shù)據(jù)是新資源、新技術(shù)和新理念的綜合體。從資源視角來看,大數(shù)據(jù)是新資源,體現(xiàn)了一種全新的資源觀。摩爾定律仍然有效,計算存儲和傳輸數(shù)據(jù)的能力在以指數(shù)速度增長,分布式計算、存儲和數(shù)據(jù)技術(shù)的革新不斷涌現(xiàn),互聯(lián)網(wǎng)企業(yè)對“數(shù)據(jù)廢氣”(DataExhaust)的挖掘利用大獲成功,引發(fā)全社會開始重新審視“數(shù)據(jù)廢氣”的價值,開始把數(shù)據(jù)當作一種獨特的戰(zhàn)略資源對待。
從技術(shù)視角看,大數(shù)據(jù)代表了新一代數(shù)據(jù)管理技術(shù)。傳統(tǒng)的數(shù)據(jù)管理與分析技術(shù)以數(shù)據(jù)為對象、在小數(shù)據(jù)集上進行分析、以集中式架構(gòu)為主,成本高昂。與“貴族化”的數(shù)據(jù)分析技術(shù)相比,源于互聯(lián)網(wǎng)的,面向多源異構(gòu)數(shù)據(jù)、在超大規(guī)模數(shù)據(jù)集上進行分析、以分布式架構(gòu)為主的新一代數(shù)據(jù)管理技術(shù)與開源軟件潮流疊加,在大幅提高處理效率的同時(數(shù)據(jù)分析從T1到T0甚至實時),成百倍地降低了數(shù)據(jù)存儲和管理成本。底層技術(shù)的變革釋放了上層應(yīng)用的創(chuàng)新活力。
從理念的視角看,大數(shù)據(jù)提供了一種全新的思維角度。大數(shù)據(jù)的應(yīng)用,賦予了“實事求是”新的內(nèi)涵,其一是“數(shù)據(jù)驅(qū)動”,即經(jīng)營管理決策可以自下而上地由數(shù)據(jù)來驅(qū)動,甚至像量化股票交易、實時競價廣告等場景中那樣,可以由機器根據(jù)數(shù)據(jù)直接決策;其二是“數(shù)據(jù)閉環(huán)”,觀察互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)案例,它們往往能夠構(gòu)造起包括數(shù)據(jù)采集、建模分析、效果評估到反饋修正各個環(huán)節(jié)在內(nèi)的完整“數(shù)據(jù)閉環(huán)”,從而能夠不斷地自我升級,螺旋上升。
大數(shù)據(jù)本身既能形成新興產(chǎn)業(yè),也能推動其他產(chǎn)業(yè)發(fā)展和社會進步,戰(zhàn)略重要性毋庸置疑。從狹義看,圍繞大數(shù)據(jù)采集、存儲、管理和挖掘,正在逐漸形成一個小的產(chǎn)業(yè)生態(tài)(狹義大數(shù)據(jù)產(chǎn)業(yè))。2015年,全球的大數(shù)據(jù)產(chǎn)業(yè)規(guī)模約為200~300億美元。據(jù)中國信息通信研究院調(diào)查[1],2015年我國大數(shù)據(jù)市場規(guī)模達到115.9億元,增速達38%,預(yù)計2016-2018年還將維持40%左右的高速增長。
從廣義看,大數(shù)據(jù)具有通用技術(shù)的屬性,能夠提升運作效率,提高決策水平,從而形成由數(shù)據(jù)驅(qū)動經(jīng)濟發(fā)展的大生態(tài)。據(jù)華沙經(jīng)濟研究所測算,歐盟27國因大數(shù)據(jù)的引進,至2020年將獲得1.9%的額外GDP增長[2]。美國麥肯錫預(yù)計到2020年美國大數(shù)據(jù)應(yīng)用帶來的增加值將占2020年GDP的2%~4%。中國信息通信研究院采用華沙經(jīng)濟研究所相同的模型測算,2014年大數(shù)據(jù)對我國GDP的增量貢獻約為0.53%~1.25%,2020年的增量貢獻最高將達到1.9%。大數(shù)據(jù)的應(yīng)用對社會治理水平的提升也能起到明顯的推動作用。
3、避免盲目跟風(fēng),大數(shù)據(jù)熱潮還需冷思考
身處大數(shù)據(jù)熱潮中,既要充分認識大數(shù)據(jù)的潛力,積極把握技術(shù)進步帶來的機遇,也要認清大數(shù)據(jù)的局限性,警惕大數(shù)據(jù)萬能論。一些被廣泛傳播的經(jīng)典案例現(xiàn)在被證明是子虛烏有的,比如,啤酒與尿布的故事實際上是Teradata公司的工程師ThomasBlischok在1992年杜撰的,從來沒發(fā)生過;而Netflix號稱用大數(shù)據(jù)分析幫助自制劇《紙牌屋》取得成功,而實際上是把大數(shù)據(jù)作為公關(guān)活動的噱頭。筆者認為,至少有以下幾點值得思考:
第一,大數(shù)據(jù)尚難對人的行為做出精確預(yù)測。在大數(shù)據(jù)是否能準確預(yù)測人類行為的問題上,還存在重大分歧。《黑天鵝》指出人類的行為不可預(yù)測,而《爆發(fā)》一書則根據(jù)對以往歷史經(jīng)驗的總結(jié),指出人類行為93%可預(yù)測。麻省理工學(xué)院教授羅伯特·萊格伯恩(RobertoRigobon)稱,雖然華爾街一直重視數(shù)據(jù)分析,但基于海量數(shù)據(jù)分析的對沖基金在全球都是失敗的?!皩τ谌撕褪录?,如果放到越大的空間和時間范圍,則是越可以精確預(yù)測的。如果放到越小的空間和時間范圍,則是越不可以精確預(yù)測的。例如,我們幾乎可以在100%的程度上預(yù)測一個人在24小時的時間范圍內(nèi)會吃飯;但若精確到某一分鐘,則幾乎不可能預(yù)測準確?!贝髷?shù)據(jù)無法預(yù)測人類行為,歸根結(jié)底還是因為人具有“自由意志”,人會根據(jù)預(yù)測結(jié)果(如下個月的股票價格、明天的交通擁堵情況)改變自身行為,從而使得預(yù)測失效。
第二,大數(shù)據(jù)相關(guān)關(guān)系不能替代因果關(guān)系。舍恩伯格在《大數(shù)據(jù)時代》[9]中說:“我們沒有必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲”,“相關(guān)關(guān)系能夠幫助我們更好地了解這個世界”。追尋相關(guān)關(guān)系和因果關(guān)系,是人類思維的兩種重要方式,而用大數(shù)據(jù)進行預(yù)測往往依靠相關(guān)性,也就是說,很多情況下知道“是什么”即可,不必知道“為什么”。相關(guān)關(guān)系的運用在互聯(lián)網(wǎng)推薦、精準廣告等方面得到了實際應(yīng)用。然而,在很多時候,如疾病診斷、工廠故障分析等場景下,需要根據(jù)確定的(或置信度非常高的)結(jié)論來決策,僅憑相關(guān)關(guān)系是遠遠不夠的。換言之,大數(shù)據(jù)中的相關(guān)關(guān)系應(yīng)用,需要區(qū)分場景,有時候數(shù)據(jù)無法自己說話,需要追本溯源。
第三,大數(shù)據(jù)來源不均衡會讓數(shù)據(jù)“說謊”。有人說數(shù)據(jù)不會撒謊。實際上,如果忽視數(shù)據(jù)來源的不均衡性,數(shù)據(jù)分析結(jié)果就會“騙人”。中國互聯(lián)中心2015年的統(tǒng)計數(shù)據(jù)顯示,我國網(wǎng)民城鄉(xiāng)分布嚴重不均,農(nóng)村網(wǎng)民雖然迅猛增長,但仍不及城市新增網(wǎng)民數(shù)量的1/10。社交網(wǎng)絡(luò)用戶的性別分布也同樣有很嚴重的傾斜,騰訊公司2015年年初的報告顯示,微信用戶的男女比例為1.8:1,男性用戶約占了64.3%,而女性用戶則只有35.7%。如果利用網(wǎng)絡(luò)大數(shù)據(jù)進行民意調(diào)查,卻不把樣本分布的不均衡性考慮進去,就可能使得某些群體未得到充分代表,而某些群體因使用率高,其意見或特征被過分放大。這種不均勻的數(shù)據(jù)來源會導(dǎo)致分析結(jié)果存在偏見和盲區(qū)。
第四,大數(shù)據(jù)無法消滅信息不對稱現(xiàn)象。有人說,大數(shù)據(jù)有助于消滅信息不對稱。雖然從全社會看,大數(shù)據(jù)的全面采集和融合應(yīng)用有望在局部緩和信息不對稱程度,但是在互聯(lián)網(wǎng)世界中,馬太效應(yīng)很顯著,擁有大數(shù)據(jù)資源和掌握大數(shù)據(jù)分析能力的企業(yè),往往會在大數(shù)據(jù)時代占據(jù)更加有利的地位、占有更多數(shù)據(jù),從而更容易形成一批數(shù)據(jù)寡頭,產(chǎn)生新的不平等,造成新的信息不對稱。因此,大數(shù)據(jù)無法消滅信息不對稱,反而更有可能助推數(shù)據(jù)寡頭的出現(xiàn)。如果這種數(shù)據(jù)壟斷地位被企業(yè)濫用,將會威脅個人、企業(yè)甚至國家利益。因此,在大數(shù)據(jù)時代,如何進一步彌合數(shù)據(jù)鴻溝、防止數(shù)據(jù)“霸權(quán)”的濫用,將會成為一個重要的新課題。熱潮之下,對大數(shù)據(jù)的反思,還需要不斷深入,才能讓我們保持清醒的頭腦。
責(zé)任編輯:姚泓澤
上一頁1