2012年10月29日,《中國(guó)云•移動(dòng)互聯(lián)網(wǎng)創(chuàng)新大獎(jiǎng)賽決賽頒獎(jiǎng)典禮暨創(chuàng)新創(chuàng)業(yè)論壇》在北航舉行。會(huì)上,中國(guó)云產(chǎn)業(yè)聯(lián)盟聯(lián)席理事長(zhǎng),中國(guó)科學(xué)院院士、北航懷進(jìn)鵬校長(zhǎng)做主題報(bào)告。他表示在大數(shù)據(jù)時(shí)代面臨三大挑戰(zhàn):1.軟件和數(shù)據(jù)處理能力。2.資源和共享管理的挑戰(zhàn)。3.數(shù)據(jù)處理的可信能力。現(xiàn)場(chǎng)速記如下。
中國(guó)科學(xué)院院士懷進(jìn)鵬:尊敬的各位臨時(shí),特別是從美國(guó)專程趕來參加我們這次論壇的陸奇先生,親愛的益民老總、李彥宏老總,我今天快點(diǎn)講,把時(shí)間留給陸奇先生,因?yàn)樗砩线€要趕飛機(jī),所以能夠讓他有更多的時(shí)間介紹在這個(gè)領(lǐng)域激動(dòng)人心的事件,以及對(duì)未來的思考。
互聯(lián)網(wǎng)技術(shù),我們都知道IT追求的目標(biāo),是追求更強(qiáng)更快和更高。所以,從過去微電子技術(shù)創(chuàng)造了很多新的機(jī)會(huì),我們知道的摩爾定律,傳輸?shù)耐ㄓ嵓夹g(shù),給我們插入優(yōu)秀的管道,計(jì)算和存儲(chǔ)能力的不斷增強(qiáng),使得現(xiàn)在的超級(jí)計(jì)算機(jī)和存儲(chǔ)得以加強(qiáng),但是現(xiàn)在由于新的發(fā)展形式,以及技術(shù)本身的壁壘,完全靠著傳統(tǒng)方式的增長(zhǎng),已經(jīng)出現(xiàn)極大的局限性,最最重要的就是互聯(lián)網(wǎng)是我們一次重大變革的基礎(chǔ)。
最近也一本書說是第5次科技革命或者第3次工業(yè)革命。無一例外就是把互聯(lián)網(wǎng)應(yīng)用和社會(huì)生活結(jié)合起來,成為一個(gè)最重要的發(fā)展內(nèi)容。而從現(xiàn)在的大型企業(yè)和IT廠商的發(fā)展和實(shí)際運(yùn)行的情況,我們已經(jīng)看到數(shù)據(jù)確實(shí)成為戰(zhàn)略和經(jīng)濟(jì)發(fā)展的一個(gè)重要基礎(chǔ)設(shè)施。這也得益于我們所談到的對(duì)信息技術(shù)快速的發(fā)展,而導(dǎo)致我們現(xiàn)在是以數(shù)據(jù)和服務(wù)為中心前提下開展新的工作和新的探索。數(shù)據(jù)整個(gè)的變化出現(xiàn)了一個(gè)巨量的增長(zhǎng)。我們看全球數(shù)據(jù)增長(zhǎng)的內(nèi)容,每天現(xiàn)在的大數(shù)據(jù)量,以及現(xiàn)在目前完成的內(nèi)容來看,90%的數(shù)字內(nèi)容和十年前、二十年前、六十年前相比,有一個(gè)巨大的變化。但回過來,面對(duì)這么大的數(shù)據(jù)空間,我們可能帶來的一個(gè)新的挑戰(zhàn)就出現(xiàn)了,比如說到2007年的時(shí)候,F(xiàn)acebook使用數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)15個(gè)TB的數(shù)據(jù),但到了2010年,每天是壓縮過的數(shù)據(jù),都不是數(shù)據(jù)倉(cāng)庫(kù)來存放的數(shù)據(jù)就比過去總和多4倍,商業(yè)并行數(shù)據(jù)很少有超過100個(gè)節(jié)點(diǎn)以上。現(xiàn)在雅虎的Hadoop集群超過4000個(gè)節(jié)點(diǎn),F(xiàn)acebook倉(cāng)庫(kù)節(jié)點(diǎn)超過2700個(gè)。而在大量的數(shù)據(jù)應(yīng)用當(dāng)中,還有在科學(xué)的私人計(jì)算、醫(yī)學(xué)的數(shù)據(jù)。也就是說大量的數(shù)據(jù)現(xiàn)在實(shí)時(shí)性開始影響我們整個(gè)的工作,生活,甚至經(jīng)濟(jì)。
所以,有人也提到,從過去資本經(jīng)濟(jì)的時(shí)代進(jìn)入數(shù)字經(jīng)濟(jì)的時(shí)代。特別是我們所看到的虛擬世界、物理世界與人類社會(huì)相關(guān)聯(lián)的時(shí)候,創(chuàng)造出了更多與以前所不一樣的。所以有學(xué)者說,18個(gè)月翻一番的數(shù)據(jù)量導(dǎo)致存儲(chǔ)和處理能力的提高,開始落后于現(xiàn)有數(shù)據(jù)增長(zhǎng)的幅度,導(dǎo)致現(xiàn)在我們知識(shí)社會(huì)當(dāng)中面臨的最大的瓶頸。而在這個(gè)瓶頸下,過去的數(shù)據(jù),以商業(yè)數(shù)據(jù)為主,是確定了數(shù)據(jù)。而現(xiàn)在的數(shù)據(jù)都是不確定的數(shù)據(jù),還有大量實(shí)時(shí)內(nèi)的數(shù)據(jù)。作為數(shù)據(jù)處理的能力,究竟應(yīng)該在哪里,應(yīng)該說最近這十年來,大家一直在探索,比如說以科學(xué)計(jì)算為基礎(chǔ)的網(wǎng)格計(jì)算,以邊緣數(shù)據(jù)之間的P2P計(jì)算,以及最近這幾年非常熱的智慧地球、智慧城市和物聯(lián)網(wǎng)。
究竟在最近這幾年已經(jīng)城成為實(shí)時(shí)性的大規(guī)模的云計(jì)算,是否是未來解決海量?jī)?nèi)容的重要方面,大家仍然在探索,是比較集聚的領(lǐng)域。無論從哪個(gè)角度來講,云計(jì)算公開處理得問題,對(duì)于海量的數(shù)據(jù)如何提高智能的處理能力。但是,面對(duì)的同樣技術(shù)問題出現(xiàn),第一,數(shù)據(jù)管理能力,數(shù)據(jù)處理能力,高可靠安全服務(wù)的能力。正是因?yàn)檫@三個(gè)能力的局限性和發(fā)展空間,也為現(xiàn)在的數(shù)據(jù)處理帶來了新的機(jī)會(huì),就是數(shù)據(jù)和經(jīng)濟(jì)社會(huì)密切相連。
所以,我們以前說,過去科學(xué)研究的三種模式,從實(shí)驗(yàn)到理論分析到計(jì)算,一直成為我們當(dāng)前科學(xué)研究和重大發(fā)現(xiàn)的基本手段。那么,現(xiàn)在的另一種模式出現(xiàn),就是所謂的Data intensive,已經(jīng)在影響科研和生產(chǎn)當(dāng)中,有第四種形式出現(xiàn)支持新的科學(xué)研究發(fā)展,可能也會(huì)為時(shí)不晚。作為在應(yīng)用當(dāng)中,實(shí)際上云計(jì)算也好,移動(dòng)互聯(lián)網(wǎng)也好,更多的期望在互聯(lián)網(wǎng)這個(gè)虛擬世界當(dāng)中,建立一體化的系統(tǒng),構(gòu)造這樣的云計(jì)算或者一個(gè)虛擬計(jì)算環(huán)境,能夠使得所有的資源和數(shù)據(jù),傳統(tǒng)的數(shù)據(jù),能夠集中被人類共享和創(chuàng)造新的知識(shí),形成一個(gè)更有效的一體化的環(huán)境和發(fā)展空間。云計(jì)算究竟是什么?現(xiàn)在很多人說它是四維,量大,類型大,價(jià)值密度低,不像過去手工業(yè)當(dāng)中的數(shù)據(jù),價(jià)值遠(yuǎn)高于現(xiàn)在云計(jì)算的價(jià)值。
而這樣一個(gè)價(jià)值密度低的情況,按常理來講就是創(chuàng)造無窮的價(jià)值,這個(gè)帶來的挑戰(zhàn)是遠(yuǎn)大于對(duì)無關(guān)數(shù)據(jù)一般性的分析,同時(shí)更新速度極快,一個(gè)商業(yè)數(shù)據(jù)保留是有時(shí)效性的,現(xiàn)在的數(shù)據(jù),我們看到的網(wǎng)頁,看到各種新聞,都在快速重復(fù)數(shù)據(jù),人體健康、教育的數(shù)據(jù)在大量的更新,一個(gè)時(shí)刻的數(shù)據(jù)不足以重要,但是一個(gè)長(zhǎng)時(shí)間的積累和斷面的結(jié)合,新的數(shù)據(jù)時(shí)空觀出現(xiàn)了,這種價(jià)值給我們帶來的創(chuàng)造性,我覺得可能是大數(shù)據(jù)是前所未有的。正是因?yàn)檫@樣的情況,我舉個(gè)例子,相當(dāng)什么情況呢?我以前提到過這個(gè)例子,北航有2000人在食堂就餐,突然有20萬人,滿足基本生活保障,還有基本提高,怎么做?多了十倍的人要吃飯,保持生存狀態(tài),最簡(jiǎn)單的方式,中國(guó)的白菜燉豆腐,怎么燉?煮開水,加豆腐、白菜,最后來做,形成了一個(gè)新的福特汽車生產(chǎn)線一樣,一個(gè)流程的管理,一個(gè)生產(chǎn)線的管理,數(shù)據(jù)生產(chǎn)線在形成。這種新的形成方式開始出現(xiàn)不同的專業(yè)領(lǐng)域,各類的垂直平臺(tái),整合公共處理模式的統(tǒng)一水平的平臺(tái),就在創(chuàng)造。那么這種創(chuàng)造實(shí)際上也是云計(jì)算的一種模式,更強(qiáng)調(diào)的是根據(jù)數(shù)據(jù)中心為基礎(chǔ)的一種新的服務(wù)應(yīng)用模式,建立了開發(fā)者和運(yùn)營(yíng)商的一種新的互利共盈的內(nèi)容。不在于解決過去商業(yè)數(shù)據(jù)和科學(xué)數(shù)據(jù)的高性能,而是要保證一個(gè)新的性能價(jià)格比,不是高質(zhì)量,而是能處理的了,不是要很精確,但是基本可用。所以,對(duì)于價(jià)值密度低,但是數(shù)據(jù)量劇增的新的難題,這是我們數(shù)據(jù)進(jìn)入規(guī)模化的發(fā)展階段,這樣的發(fā)展階段也是我們搞計(jì)算機(jī)人的夢(mèng)想,所謂一切都靠計(jì)算。我們以前的物理世界通過仿真建立數(shù)據(jù)模型,通過高性能計(jì)算機(jī)支持發(fā)展,通過智能活動(dòng)建立我們的裝備,嵌入個(gè)系統(tǒng),我們說可穿戴計(jì)算機(jī),嵌入系統(tǒng)也好。還有就是我們互聯(lián)網(wǎng)已經(jīng)做到更好的進(jìn)行通訊的能力。那么,這個(gè)思想是圖靈獎(jiǎng)得主巴特爾所談到的,根據(jù)他的思路,對(duì)于這三個(gè)特點(diǎn)的總結(jié)。
究竟過去的商業(yè)計(jì)算、科學(xué)計(jì)算帶來什么內(nèi)容?科學(xué)計(jì)算解決圖靈機(jī)和算法,奠定計(jì)算機(jī)的基礎(chǔ),科學(xué)理論。商業(yè)計(jì)算是為了實(shí)現(xiàn)流程的管理,工作流是其中的一種代表,社會(huì)計(jì)算中,大數(shù)據(jù)情況下是什么,不太清楚。那個(gè)年代的科學(xué)當(dāng)中,使得操作系統(tǒng)的發(fā)展非常壯大,管理底下的資源。到了商業(yè)計(jì)算當(dāng)中,數(shù)據(jù)庫(kù)的發(fā)展,而到了大科學(xué)數(shù)據(jù)當(dāng)中,大數(shù)據(jù)量下是什么問題?也還不清楚。
因此,作為這種社會(huì)計(jì)算對(duì)當(dāng)前的數(shù)學(xué)模型,軟件,系統(tǒng)的能力,都有了新的完全不同的可能變化。所以,我在這里想說一下我的理解。
第一個(gè)大的問題就是軟件和數(shù)據(jù)處理能力。由于軟件的復(fù)雜性強(qiáng)和巨大的問題,互聯(lián)網(wǎng)巨大規(guī)模的應(yīng)用和數(shù)據(jù)的不確定性,我們過去軟件在封閉世界研究的數(shù)理邏輯的研究仍然有效,但是遇到更加開放、動(dòng)態(tài)的問題。比如說數(shù)據(jù)模型和處理,給另一個(gè)海量數(shù)據(jù)做輸入,如何做輸出,并能找到問題的答案。過去的算法就是看它能不能計(jì)算,來決定計(jì)算機(jī)能不能處理。計(jì)算好和壞。現(xiàn)在按照傳統(tǒng)計(jì)算復(fù)雜性,我們看所有的大數(shù)據(jù)都算不了。所以,怎么在有效的時(shí)間內(nèi)找出它的近似算法和最逼近的算法,這是對(duì)數(shù)據(jù)新的規(guī)模當(dāng)中新的科學(xué)問題。傳統(tǒng)的商業(yè)數(shù)據(jù)庫(kù)為什么做不了?第一,它用授權(quán)收費(fèi),價(jià)格極高,開源數(shù)據(jù)庫(kù)的維護(hù)將會(huì)比買一個(gè)授權(quán)還要貴。我們看過去管理傳統(tǒng)數(shù)據(jù),一個(gè)TB一萬美元,Hadoop系統(tǒng)一個(gè)TB500美金,大部分情況下用到什么內(nèi)容?傳統(tǒng)的數(shù)據(jù)庫(kù)就是Scarle up,性能的提高,對(duì)CPU、存儲(chǔ)等進(jìn)行不斷的擴(kuò)展,這是傳統(tǒng)的并行計(jì)算的模型。現(xiàn)在的大數(shù)據(jù)分散在互聯(lián)網(wǎng),分布式的、動(dòng)態(tài)的增加低成本的計(jì)算和服務(wù)能力。因此,這樣的方式也是一個(gè)新的挑戰(zhàn),同時(shí)對(duì)于軟件,什么樣的模型能適應(yīng)它的發(fā)展。我們知道Hadoop,圖形處理,一種基本的編程模式遠(yuǎn)遠(yuǎn)超越于我們過去的程序設(shè)計(jì)語言,超越于我們網(wǎng)站的設(shè)計(jì)。而在新的方式當(dāng)中,它對(duì)于最低的延遲和最簡(jiǎn)單的任務(wù)操作開始提出新的問題,要求的挑戰(zhàn)出現(xiàn)。同時(shí)新的特征出現(xiàn),因?yàn)樗欠植际絼≡龉?jié)點(diǎn)的內(nèi)容,因?yàn)樗目蓴U(kuò)展性,以提高他的生產(chǎn)效率,吞吐率,通過新的容錯(cuò)和可靠性的方式維護(hù)系統(tǒng),互聯(lián)網(wǎng)的系統(tǒng)永遠(yuǎn)沒有短板的原理,每一個(gè)節(jié)點(diǎn)都是最高點(diǎn)。因此作為Fault tolerance方式來講,已經(jīng)有新的變化。作為這個(gè)領(lǐng)域,我們看到模型到軟件都有變化,同時(shí)在數(shù)據(jù)科學(xué),過去以手工分析,以商業(yè)數(shù)據(jù)為基本的方式,在大科學(xué)數(shù)據(jù)下,已經(jīng)開始顯現(xiàn)的越來越蒼白,原因就是如果過去數(shù)據(jù)是手工農(nóng)業(yè)社會(huì)的話,現(xiàn)在進(jìn)入工業(yè)化的社會(huì)。工業(yè)化社會(huì)基本的數(shù)學(xué)物理特征就是統(tǒng)計(jì)物理學(xué)、實(shí)驗(yàn)物理學(xué)和我們過去的隨機(jī)過程。過去計(jì)算機(jī)依賴的,以及有限條件下的數(shù)理統(tǒng)計(jì),代數(shù)系統(tǒng)建立新的處理的方式,是變成更重要的一種內(nèi)容。因此,對(duì)于我們處理這類數(shù)據(jù)的工具也發(fā)生了很大的變化。
昨天和陸奇先生,也在討論,現(xiàn)在在很多重要的企業(yè)當(dāng)中,統(tǒng)計(jì)科學(xué)、實(shí)驗(yàn)物理學(xué)成為大家最重要的手段,新藥的發(fā)現(xiàn),人的習(xí)慣,閱讀的分析,商業(yè)的模式,都從這里大量統(tǒng)一分析出現(xiàn)。我以前也提到過,過去對(duì)50萬個(gè)單詞學(xué)習(xí)拼寫解答,進(jìn)行語音、文字或者句子的理解,現(xiàn)在50萬,500萬,500億的句組,再用過去的方式就不適合了,而是大規(guī)模的、新的、工業(yè)化的數(shù)據(jù)為基礎(chǔ)的處理能力。要求我們對(duì)新的數(shù)據(jù)科學(xué)理論,提出對(duì)算法、計(jì)算方式,以及新的搜索引擎都有新的挑戰(zhàn)。這對(duì)學(xué)術(shù)界是大的機(jī)遇。以前的文件系統(tǒng)、數(shù)據(jù)互聯(lián)網(wǎng)、基于不同角度的搜索,從細(xì)節(jié)到整體,從局部到系統(tǒng)的新的方式,都帶來新的機(jī)會(huì)。這樣的內(nèi)容還帶來一個(gè)問題,雖然密度低、價(jià)值低,但是數(shù)據(jù)質(zhì)量仍然是持續(xù)的問題,怎么解決數(shù)據(jù)質(zhì)量,新的Qulity,跟過去的數(shù)據(jù)處理都不同。
因此,作為新的大數(shù)據(jù)下,軟件和數(shù)據(jù)處理能力,成為最重要的,也是未來科學(xué)研究對(duì)于其他學(xué)科當(dāng)中一種發(fā)展的手段,第二個(gè)挑戰(zhàn),就是關(guān)于資源和共享管理,如此眾多的資源要解決以及不斷支撐新的需求的Scarleout的模式下,怎樣把存儲(chǔ)、數(shù)據(jù)能夠作為公共資源的管理,以解決不同類型中的應(yīng)用,這里的問題有很多。大家知道,網(wǎng)站的環(huán)境,或者有一些環(huán)境都影響這個(gè)系統(tǒng)生存和擴(kuò)展規(guī)模的能力。
那么,這樣的能力已經(jīng)不僅影響到我們一般的應(yīng)用,對(duì)能源、數(shù)據(jù)的管理,作為價(jià)值也是極高的情況,所以它的消耗能源也變成一個(gè)重要的問題。那么,這里一個(gè)最重要的問題,就是未來的資源管理更向系統(tǒng),或者是否存在單一的垂直管理系統(tǒng),以及所謂的統(tǒng)一的操作系統(tǒng),也變成了現(xiàn)在爭(zhēng)奪的最重要的問題。如何管好數(shù)據(jù)和管好資源,成為重要的內(nèi)容。這種方式的解決可能又創(chuàng)造互聯(lián)網(wǎng)新的方式,就是數(shù)據(jù)與服務(wù)運(yùn)營(yíng)商的出現(xiàn),因?yàn)橛脩羰菙?shù)據(jù)的創(chuàng)造者,服務(wù)軟件提供各類的服務(wù),一切能想象到或者數(shù)字化都可以作為服務(wù)提供。所以數(shù)據(jù)與服務(wù)運(yùn)營(yíng)商將會(huì)成為電信運(yùn)營(yíng)商的模式,重要而且會(huì)快速發(fā)展的內(nèi)容。那么,這種模式的出現(xiàn),可能會(huì)對(duì)我們互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng)的發(fā)展也會(huì)有重要的內(nèi)容,解決多樣性和發(fā)展處理存儲(chǔ)的問題。
第三個(gè)問題,就是數(shù)據(jù)處理的可信能力,解決云端的一體化的安全監(jiān)控,系統(tǒng)的恢復(fù),以及再往后發(fā)展的高可靠性的能力。對(duì)于這樣一類問題,應(yīng)該說,隨著技術(shù)的發(fā)展,一個(gè)安全的問題,可信的問題,是和重大系統(tǒng)應(yīng)用是相伴而生的,但是它確實(shí)是一個(gè)重要的問題。不光是沒有價(jià)值的大量數(shù)據(jù)出現(xiàn),而且隱私數(shù)據(jù)也非常重要。因此,在大數(shù)據(jù)時(shí)代當(dāng)中,我覺得隨著數(shù)據(jù)的分布性,異構(gòu)性和動(dòng)態(tài)快速變化性,加上個(gè)人擁有的質(zhì)性,可計(jì)算的問題,可管理的問題,可信任的問題,共同組成了在大數(shù)據(jù)時(shí)代的新的三類和我們需要有新的手段,可能會(huì)關(guān)注到的三個(gè)典型的科學(xué)問題。
我理解,軟件發(fā)展這么多年,幾十年,計(jì)算機(jī)是以數(shù)據(jù)處理為中心的。所有的事情的誕生都是以數(shù)據(jù)處理為核心。但是,進(jìn)入到今天,已經(jīng)超越我們過去簡(jiǎn)單的數(shù)據(jù),如果我們看80年代出現(xiàn)的軟件成為商品,90年代創(chuàng)造出的第二次變革,是簡(jiǎn)單的、基本的、重要的信息服務(wù)業(yè)。在現(xiàn)在來看,就會(huì)進(jìn)入了一個(gè)新的發(fā)展,數(shù)據(jù)創(chuàng)造了價(jià)值,而不是一個(gè)簡(jiǎn)單的應(yīng)用或者信息的堆積。因此以數(shù)據(jù)為中心下會(huì)給我們帶來機(jī)會(huì)。但是從過去IT發(fā)展來看,雖然應(yīng)用有一段時(shí)間,但是技術(shù)的突破和新的應(yīng)用載體窗口時(shí)間并不是很長(zhǎng)。因此理論和技術(shù)上的創(chuàng)新和持續(xù)的發(fā)展,會(huì)給我們帶來機(jī)會(huì)。但,同時(shí)應(yīng)用模式的創(chuàng)新更重要,特別是IT的創(chuàng)新,實(shí)際上在不斷的驗(yàn)證Case法則,Hadoop就是簡(jiǎn)單編程模型,就是保持它的簡(jiǎn)潔和最有效,就是我們IT領(lǐng)域。
因此在這個(gè)領(lǐng)域當(dāng)中,年輕的學(xué)生,年輕的人,在這個(gè)領(lǐng)域,你們的腦子里還沒有被跑馬圈地,還有很大的空間去創(chuàng)造,因此這也是最有機(jī)會(huì)的發(fā)展內(nèi)容,謝謝各位!