大數(shù)據(jù)發(fā)展遭遇瓶頸 如何突破壁壘迎新生? 2016年09月19日11:06 來(lái)源:中國(guó)智能制造網(wǎng)|
已經(jīng)上升成為國(guó)家戰(zhàn)略,社會(huì)各界對(duì)大數(shù)據(jù)的期待上升到了前所未有的高度。如何務(wù)實(shí)推動(dòng)大數(shù)據(jù)戰(zhàn)略落地,成為接下來(lái)的政策重點(diǎn)。
1、引言
2015年,我國(guó)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》出臺(tái),十八屆五中全會(huì)進(jìn)一步提出要在“十三五”期間實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,大數(shù)據(jù)一路上升成為國(guó)家戰(zhàn)略,社會(huì)各界對(duì)大數(shù)據(jù)的期待上升到了前所未有的高度。如何推動(dòng)大數(shù)據(jù)戰(zhàn)略落地成為未來(lái)幾年的政策重點(diǎn)。本文重溫了大數(shù)據(jù)的內(nèi)涵,分析了大數(shù)據(jù)的局限性,結(jié)合國(guó)內(nèi)大數(shù)據(jù)發(fā)展面臨的瓶頸,提出了相關(guān)的策略建議。
2、把握概念本質(zhì),深刻認(rèn)識(shí)大數(shù)據(jù)的戰(zhàn)略?xún)r(jià)值
大數(shù)據(jù)是新資源、新技術(shù)和新理念的綜合體。從資源視角來(lái)看,大數(shù)據(jù)是新資源,體現(xiàn)了一種全新的資源觀。摩爾定律仍然有效,計(jì)算存儲(chǔ)和傳輸數(shù)據(jù)的能力在以指數(shù)速度增長(zhǎng),分布式計(jì)算、存儲(chǔ)和數(shù)據(jù)技術(shù)的革新不斷涌現(xiàn),互聯(lián)網(wǎng)企業(yè)對(duì)“數(shù)據(jù)廢氣”(DataExhaust)的挖掘利用大獲成功,引發(fā)全社會(huì)開(kāi)始重新審視“數(shù)據(jù)廢氣”的價(jià)值,開(kāi)始把數(shù)據(jù)當(dāng)作一種獨(dú)特的戰(zhàn)略資源對(duì)待。
從技術(shù)視角看,大數(shù)據(jù)代表了新一代數(shù)據(jù)管理技術(shù)。傳統(tǒng)的數(shù)據(jù)管理與分析技術(shù)以數(shù)據(jù)為對(duì)象、在小數(shù)據(jù)集上進(jìn)行分析、以集中式架構(gòu)為主,成本高昂。與“貴族化”的數(shù)據(jù)分析技術(shù)相比,源于互聯(lián)網(wǎng)的,面向多源異構(gòu)數(shù)據(jù)、在超大規(guī)模數(shù)據(jù)集上進(jìn)行分析、以分布式架構(gòu)為主的新一代數(shù)據(jù)管理技術(shù)與開(kāi)源軟件潮流疊加,在大幅提高處理效率的同時(shí)(數(shù)據(jù)分析從T1到T0甚至實(shí)時(shí)),成百倍地降低了數(shù)據(jù)存儲(chǔ)和管理成本。底層技術(shù)的變革釋放了上層應(yīng)用的創(chuàng)新活力。
從理念的視角看,大數(shù)據(jù)提供了一種全新的思維角度。大數(shù)據(jù)的應(yīng)用,賦予了“實(shí)事求是”新的內(nèi)涵,其一是“數(shù)據(jù)驅(qū)動(dòng)”,即經(jīng)營(yíng)管理決策可以自下而上地由數(shù)據(jù)來(lái)驅(qū)動(dòng),甚至像量化股票交易、實(shí)時(shí)競(jìng)價(jià)廣告等場(chǎng)景中那樣,可以由機(jī)器根據(jù)數(shù)據(jù)直接決策;其二是“數(shù)據(jù)閉環(huán)”,觀察互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)案例,它們往往能夠構(gòu)造起包括數(shù)據(jù)采集、建模分析、效果評(píng)估到反饋修正各個(gè)環(huán)節(jié)在內(nèi)的完整“數(shù)據(jù)閉環(huán)”,從而能夠不斷地自我升級(jí),螺旋上升。
大數(shù)據(jù)本身既能形成新興產(chǎn)業(yè),也能推動(dòng)其他產(chǎn)業(yè)發(fā)展和社會(huì)進(jìn)步,戰(zhàn)略重要性毋庸置疑。從狹義看,圍繞大數(shù)據(jù)采集、存儲(chǔ)、管理和挖掘,正在逐漸形成一個(gè)小的產(chǎn)業(yè)生態(tài)(狹義大數(shù)據(jù)產(chǎn)業(yè))。2015年,全球的大數(shù)據(jù)產(chǎn)業(yè)規(guī)模約為200~300億美元。據(jù)中國(guó)信息通信研究院調(diào)查[1],2015年我國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模達(dá)到115.9億元,增速達(dá)38%,預(yù)計(jì)2016-2018年還將維持40%左右的高速增長(zhǎng)。
從廣義看,大數(shù)據(jù)具有通用技術(shù)的屬性,能夠提升運(yùn)作效率,提高決策水平,從而形成由數(shù)據(jù)驅(qū)動(dòng)經(jīng)濟(jì)發(fā)展的大生態(tài)。據(jù)華沙經(jīng)濟(jì)研究所測(cè)算,歐盟27國(guó)因大數(shù)據(jù)的引進(jìn),至2020年將獲得1.9%的額外GDP增長(zhǎng)[2]。美國(guó)麥肯錫預(yù)計(jì)到2020年美國(guó)大數(shù)據(jù)應(yīng)用帶來(lái)的增加值將占2020年GDP的2%~4%。中國(guó)信息通信研究院采用華沙經(jīng)濟(jì)研究所相同的模型測(cè)算,2014年大數(shù)據(jù)對(duì)我國(guó)GDP的增量貢獻(xiàn)約為0.53%~1.25%,2020年的增量貢獻(xiàn)最高將達(dá)到1.9%。大數(shù)據(jù)的應(yīng)用對(duì)社會(huì)治理水平的提升也能起到明顯的推動(dòng)作用。
3、避免盲目跟風(fēng),大數(shù)據(jù)熱潮還需冷思考
身處大數(shù)據(jù)熱潮中,既要充分認(rèn)識(shí)大數(shù)據(jù)的潛力,積極把握技術(shù)進(jìn)步帶來(lái)的機(jī)遇,也要認(rèn)清大數(shù)據(jù)的局限性,警惕大數(shù)據(jù)萬(wàn)能論。一些被廣泛傳播的經(jīng)典案例現(xiàn)在被證明是子虛烏有的,比如,啤酒與尿布的故事實(shí)際上是Teradata公司的工程師ThomasBlischok在1992年杜撰的,從來(lái)沒(méi)發(fā)生過(guò);而Netflix號(hào)稱(chēng)用大數(shù)據(jù)分析幫助自制劇《紙牌屋》取得成功,而實(shí)際上是把大數(shù)據(jù)作為公關(guān)活動(dòng)的噱頭。筆者認(rèn)為,至少有以下幾點(diǎn)值得思考:
第一,大數(shù)據(jù)尚難對(duì)人的行為做出精確預(yù)測(cè)。在大數(shù)據(jù)是否能準(zhǔn)確預(yù)測(cè)人類(lèi)行為的問(wèn)題上,還存在重大分歧?!逗谔禊Z》指出人類(lèi)的行為不可預(yù)測(cè),而《爆發(fā)》一書(shū)則根據(jù)對(duì)以往歷史經(jīng)驗(yàn)的總結(jié),指出人類(lèi)行為93%可預(yù)測(cè)。麻省理工學(xué)院教授羅伯特·萊格伯恩(RobertoRigobon)稱(chēng),雖然華爾街一直重視數(shù)據(jù)分析,但基于海量數(shù)據(jù)分析的對(duì)沖基金在全球都是失敗的?!皩?duì)于人和事件,如果放到越大的空間和時(shí)間范圍,則是越可以精確預(yù)測(cè)的。如果放到越小的空間和時(shí)間范圍,則是越不可以精確預(yù)測(cè)的。例如,我們幾乎可以在100%的程度上預(yù)測(cè)一個(gè)人在24小時(shí)的時(shí)間范圍內(nèi)會(huì)吃飯;但若精確到某一分鐘,則幾乎不可能預(yù)測(cè)準(zhǔn)確?!贝髷?shù)據(jù)無(wú)法預(yù)測(cè)人類(lèi)行為,歸根結(jié)底還是因?yàn)槿司哂小白杂梢庵尽?,人?huì)根據(jù)預(yù)測(cè)結(jié)果(如下個(gè)月的股票價(jià)格、明天的交通擁堵情況)改變自身行為,從而使得預(yù)測(cè)失效。
第二,大數(shù)據(jù)相關(guān)關(guān)系不能替代因果關(guān)系。舍恩伯格在《大數(shù)據(jù)時(shí)代》[9]中說(shuō):“我們沒(méi)有必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲”,“相關(guān)關(guān)系能夠幫助我們更好地了解這個(gè)世界”。追尋相關(guān)關(guān)系和因果關(guān)系,是人類(lèi)思維的兩種重要方式,而用大數(shù)據(jù)進(jìn)行預(yù)測(cè)往往依靠相關(guān)性,也就是說(shuō),很多情況下知道“是什么”即可,不必知道“為什么”。相關(guān)關(guān)系的運(yùn)用在互聯(lián)網(wǎng)推薦、精準(zhǔn)廣告等方面得到了實(shí)際應(yīng)用。然而,在很多時(shí)候,如疾病診斷、工廠故障分析等場(chǎng)景下,需要根據(jù)確定的(或置信度非常高的)結(jié)論來(lái)決策,僅憑相關(guān)關(guān)系是遠(yuǎn)遠(yuǎn)不夠的。換言之,大數(shù)據(jù)中的相關(guān)關(guān)系應(yīng)用,需要區(qū)分場(chǎng)景,有時(shí)候數(shù)據(jù)無(wú)法自己說(shuō)話(huà),需要追本溯源。
第三,大數(shù)據(jù)來(lái)源不均衡會(huì)讓數(shù)據(jù)“說(shuō)謊”。有人說(shuō)數(shù)據(jù)不會(huì)撒謊。實(shí)際上,如果忽視數(shù)據(jù)來(lái)源的不均衡性,數(shù)據(jù)分析結(jié)果就會(huì)“騙人”。中國(guó)互聯(lián)中心2015年的統(tǒng)計(jì)數(shù)據(jù)顯示,我國(guó)網(wǎng)民城鄉(xiāng)分布嚴(yán)重不均,農(nóng)村網(wǎng)民雖然迅猛增長(zhǎng),但仍不及城市新增網(wǎng)民數(shù)量的1/10。社交網(wǎng)絡(luò)用戶(hù)的性別分布也同樣有很?chē)?yán)重的傾斜,騰訊公司2015年年初的報(bào)告顯示,微信用戶(hù)的男女比例為1.8:1,男性用戶(hù)約占了64.3%,而女性用戶(hù)則只有35.7%。如果利用網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行民意調(diào)查,卻不把樣本分布的不均衡性考慮進(jìn)去,就可能使得某些群體未得到充分代表,而某些群體因使用率高,其意見(jiàn)或特征被過(guò)分放大。這種不均勻的數(shù)據(jù)來(lái)源會(huì)導(dǎo)致分析結(jié)果存在偏見(jiàn)和盲區(qū)。
第四,大數(shù)據(jù)無(wú)法消滅信息不對(duì)稱(chēng)現(xiàn)象。有人說(shuō),大數(shù)據(jù)有助于消滅信息不對(duì)稱(chēng)。雖然從全社會(huì)看,大數(shù)據(jù)的全面采集和融合應(yīng)用有望在局部緩和信息不對(duì)稱(chēng)程度,但是在互聯(lián)網(wǎng)世界中,馬太效應(yīng)很顯著,擁有大數(shù)據(jù)資源和掌握大數(shù)據(jù)分析能力的企業(yè),往往會(huì)在大數(shù)據(jù)時(shí)代占據(jù)更加有利的地位、占有更多數(shù)據(jù),從而更容易形成一批數(shù)據(jù)寡頭,產(chǎn)生新的不平等,造成新的信息不對(duì)稱(chēng)。因此,大數(shù)據(jù)無(wú)法消滅信息不對(duì)稱(chēng),反而更有可能助推數(shù)據(jù)寡頭的出現(xiàn)。如果這種數(shù)據(jù)壟斷地位被企業(yè)濫用,將會(huì)威脅個(gè)人、企業(yè)甚至國(guó)家利益。因此,在大數(shù)據(jù)時(shí)代,如何進(jìn)一步彌合數(shù)據(jù)鴻溝、防止數(shù)據(jù)“霸權(quán)”的濫用,將會(huì)成為一個(gè)重要的新課題。熱潮之下,對(duì)大數(shù)據(jù)的反思,還需要不斷深入,才能讓我們保持清醒的頭腦。
責(zé)任編輯:姚泓澤
上一頁(yè)1