如今,大數(shù)據(jù)正變得越來越廉價,而不僅僅是廣泛分布商品硬件上廉價的存儲和計算。大數(shù)據(jù)分析可能很快成為高性能計算(HPC)新的 殺手級應(yīng)用 。
此外,還有比大數(shù)據(jù)更多的大量的信息。它還涉及大量的分布式活動,如復(fù)雜的查詢和計算。換句話說,通過計算獲得的價值就像數(shù)據(jù)集本身的大小一樣 大 。事實上,高性能計算大數(shù)據(jù)已經(jīng)被分析公司IDC所創(chuàng)造,如 高性能數(shù)據(jù)分析。
高性能計算(HPC)能很好地實現(xiàn)大數(shù)據(jù)典型的工作流程的所有三個階段,包括數(shù)據(jù)采集和過濾,分析,結(jié)果可視化。除了這三個階段,計算的速度和規(guī)模一樣重要。為了發(fā)掘大數(shù)據(jù)的全部潛力,我們要以 大計算 與HPC進行匹配。
對于大數(shù)據(jù)和高性能計算的融合,以及企業(yè)如何充分利用這一現(xiàn)象來改善大型處理,以下有三個方法:
1.Hadoop聯(lián)手Infiniband
許多人認為最常用的超級計算機互連技術(shù)InfiniBand,可以盡可能多滿足HPC作為裸機處理的基本要求。如果不能快速移動節(jié)點之間的信息,就會限制了你可以實現(xiàn)的水平的可擴展性。遠程直接內(nèi)存訪問(RDMA)的ApacheHadoop提供了一個極好的高速、低延遲互連的大數(shù)據(jù)平臺。甚至可以在云端利用RDMA在任何時候提供一個Hadoop集群。由于其優(yōu)越的帶寬和延遲的優(yōu)勢,56Gbps的InfinibandFDR可能比10Gbps以太網(wǎng)速度甚至快100倍以上,短期使用非常昂貴的定制總線,這是跨節(jié)點的計算分布數(shù)據(jù)和處理的最快方法。最后,用戶可以根據(jù)應(yīng)用的大小可以擴展大數(shù)據(jù)平臺,而不必擔(dān)心幾乎一樣多的瓶頸。不僅會得到更快的結(jié)果,而其建立時間將遠遠小于所使用的商品網(wǎng)絡(luò)技術(shù)。
2.Hadoop聯(lián)手Accelerators
高性能計算(HPC)的另一個重要特點是采用了流行的協(xié)處理器和加速器,如被動式散熱NVIDIATesla和開普勒的GPU。正如這些技術(shù)大大有助于技術(shù)計算解決方案的發(fā)展,他們還可以幫助大數(shù)據(jù)和分析,就像他們已經(jīng)進行測序和比對。
Hadoop利用GPU技術(shù),如CUDA和OpenCL可以大促進大數(shù)據(jù)性能的一個重要因素。所有其他的事情都是相同的,高性能的大數(shù)據(jù)平臺和技術(shù),如Hadoop,Spark,MapReduce導(dǎo)致復(fù)雜的分析和更快的結(jié)果。事實上,對于人們正在收集的數(shù)據(jù)量的不斷增長的唯一方法是提高計算速度。大數(shù)據(jù)利用協(xié)處理器和加速器是HPC在這個空間具有更大的影響力的重要途徑。
3.大數(shù)據(jù)和高性能計算在云計算的融合
大數(shù)據(jù)比任何其他應(yīng)用程序推動公共云更快的增長,HPC需求成為了一個新興的力量,并準備好迎接這一挑戰(zhàn)。我們收集的數(shù)據(jù)越多,我們需要分析數(shù)據(jù)的計算能力就越大。簡單地說,大數(shù)據(jù)和云計算的增長攜手并進。只有這樣,才能提供足夠的規(guī)模,而跟上需求部署HPC類資產(chǎn),以提高處理性能和密度。
得益于大數(shù)據(jù)平臺的超級計算技術(shù),如高速互連和協(xié)處理器的結(jié)合,組織可以利用和部署上的設(shè)計,使HPC服務(wù)成為了下一個主要需求分析的創(chuàng)新浪潮。采用分布式文件系統(tǒng),如Hadoop,在相同的計算能力的情況下,可以加快測序和比對的過程,可以大大提高在今后的查詢和比較的效率,并且其成本更加低廉。傳統(tǒng)的HPC并行存儲,經(jīng)濟學(xué)將變得更具吸引力。最后,采用具有時間價值和彈性規(guī)模的公共云,企業(yè)現(xiàn)在可以專注于他們的工作,而不是過于關(guān)注IT平臺的性能。
由于大數(shù)據(jù)和高性能計算需求的銜接,企業(yè)將能夠充分利用公共云計算的規(guī)模和可用性。
編輯:Harris