無論無處不在的“大數(shù)據(jù)”概念引起怎樣的聯(lián)想,逐步增長的數(shù)據(jù)規(guī)模確是改變著我們和世界的交互方式。這在工業(yè)界、政界、媒體、學術(shù)界,幾乎任何領(lǐng)域,都是事實。逐漸增強的對大數(shù)據(jù)進行收集、處理、抽象化,并從中得到啟發(fā)的能力,拓寬了我們的知識面。
然而近年來,科學研究領(lǐng)域加速轉(zhuǎn)變到以數(shù)據(jù)為核心,是有負面影響的?偨Y(jié)來說就是:稱職的科學研究者需要的能力,和稱職的工業(yè)界從業(yè)人員需要的能 力,越來越無法區(qū)分。具有典型惰性的學術(shù)界剛剛開始適應這一轉(zhuǎn)變,而其他領(lǐng)域早已開始大規(guī)模鼓勵和獎勵這種能力。不幸的是,這導致了很多有才的準研究者難 以在學術(shù)界立足,只能投入財大氣粗的工業(yè)界的懷抱。
數(shù)據(jù)的神奇效果
20世紀60年代,物理學家Eugene Wigner發(fā)表了他的著作:數(shù)學在自然科學界的神奇效果。它論述了抽象的數(shù)學概念在上下文中的有效性,遠遠超過產(chǎn)生這些概念的上下文,其差距到了驚人的 地步。畢竟,誰能想到Riiemannn在20世紀研究的非歐集合會是愛因斯坦重新思考萬有引力的基礎?誰又能想到,抽象固體的旋轉(zhuǎn)群的編纂幾乎最終導致 了物理學家成功地預測希格斯玻色子的存在?
谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以“數(shù)據(jù)的神奇效果”為題發(fā)表的文章響應了這一觀點。文章展現(xiàn)其驚人的洞察力:只要有足夠的數(shù)據(jù),數(shù)學模型的斟酌選擇不再重要 —尤其是對他們所研究的自動語言翻譯來說,“比起很少的數(shù)據(jù)及其精確模型,簡單模型和大量的數(shù)據(jù)更有勝算”。
如果我們大膽假設這個觀點可以延伸(至少是部分延伸)至自然語言處理之外,那么僅僅是數(shù)據(jù)挖掘這一項技能都會逐步打敗領(lǐng)域知識。我相信這一預言已被證實:眾多學術(shù)領(lǐng)域,有效地處理數(shù)據(jù)的能力正在取代其他更經(jīng)典的研究模式。
我并不是說對某一領(lǐng)域的精通已經(jīng)完全過時。如果不理解粒子相互作用理論,大型強子對撞機(LHC)產(chǎn)生的10Gb每秒的速度將一無用處,就像只有理 解物理過程驅(qū)動空間爆炸的理論,大型天文望遠鏡(LSST)產(chǎn)生的每晚15TB的原圖像數(shù)據(jù)才能幫助我們理解宇宙學。然而,LHC和LSST反映了越來越 普遍的現(xiàn)象:科學研究結(jié)果完全依賴對大量數(shù)據(jù)的精確分析。實際上,我們發(fā)現(xiàn),即使數(shù)據(jù)量并不足夠“大”,能夠?qū)λ鼈兲幚怼⒊橄、挖掘和從?shù)據(jù)中學習的研究 者也在逐步促進科學進步。
新型科學家
從某種意義來說,數(shù)據(jù)驅(qū)動的研究是過去的研究趨勢的簡單延續(xù)。自16-17世紀科研分離出亞里士多德哲學,科學進步已基本依賴試驗和觀察。要知道, 是第谷16世紀開創(chuàng)性的對天空的研究,促動了17世紀開普勒的行星運動規(guī)律的研究,繼而為牛頓的萬有引力定律鋪平道路,最終形成愛因斯坦的廣義相對論? 學家始終在努力處理數(shù)據(jù),區(qū)別只在于這一努力如今正成為科學研究過程的核心。
不過,科學研究逐步以數(shù)據(jù)為中心已經(jīng)產(chǎn)生了解決問題的新辦法:進入LHC、LSST時代,善于運用高性能并行數(shù)據(jù)統(tǒng)計算法探索大量的群體性數(shù)據(jù)集的 研究者,以及新的統(tǒng)計方法、機器學習算法、高速代碼,以前所未有的規(guī)模重復進行典型分析的應用,推動了振奮人心的研究。簡而言之,新型科學家一定是精通統(tǒng) 計、計算、構(gòu)建算法、軟件設計、領(lǐng)域技能(可能作事后使用)的多棲專家。在粒子物理學、生物學、化學、神經(jīng)科學、海洋科學、 大氣物理學等幾乎所有領(lǐng)域,研究越來越趨向于數(shù)據(jù)驅(qū)動,同時數(shù)據(jù)收集的速度絲毫沒有放緩的跡象。
科學軟件的基礎作用
科學軟件的共同點,是這些工作都離不開編寫代碼。高質(zhì)量的、組織良好的公共代碼才能對科學過程極為重要的重現(xiàn)產(chǎn)生影響。諸多公共軟件都是關(guān)于當前的非再生性科學危機、新的出版形式的需要、新的研究、代碼和數(shù)據(jù)公開訪問。此處不再詳談更多。
此處我想詳細討論的是,優(yōu)化的專業(yè)軟件對大型數(shù)據(jù)集分析和抽象的核心作用,以及它成為現(xiàn)代科學研究的核心的演繹過程。我的合作者Gael Varoquauz以及他的同事最近發(fā)表評論證實了這一觀點(見Gael的簡介),并就公共的,組織良好的健壯的科學代碼對于現(xiàn)代科學研究的重現(xiàn)性和研究 本身的進步都必不可少這一論點進行了實例研究。過去的研究結(jié)果,如果只是在論文中簡單提及,而產(chǎn)生這結(jié)果的實際過程的代碼未經(jīng)組織,這樣的結(jié)果就不能作為 新的研究的基礎。就像是Buckheit和Donoho曾說的:
學術(shù)期刊上的計算科學的文章并不是學術(shù),他們只是學術(shù)的幌子。真正的學術(shù)是完整的軟件開發(fā)環(huán)境,以及計算出數(shù)字的完整指令集。
公開代碼看起來像是馬后炮,但是一般來講,僅僅發(fā)布代碼是不夠的。像Brandon Rhodes在Rupy 2013 Talk中說的那樣,“一個程序運行正常,總好過它勉強能正常運行”。讓代碼對在科學研究之外的作者有用需要相當大的投入。這種項目具有難以估計的價值, 就像NumPy項目,Scikit-learn項目,等等。它們?yōu)檠芯空咛峁┮粋框架,在此框架下,代碼可以共享,在github上共同審閱和發(fā)布,以此 造福研究社區(qū)。
學術(shù)界的斷層
這是學術(shù)界的弊病:盡管有層次的高質(zhì)量軟件正成為現(xiàn)在的科學研究模式的核心,并且這些實踐將有助于學術(shù)研究的成功,學術(shù)界卻非常成功的阻止了這一實 踐。“發(fā)表或者毀滅”的模式中,論文制約著大多數(shù)研究型高校,相當于學術(shù)獎勵框架的貨幣,而花費在構(gòu)建和編寫軟件工具上的時間統(tǒng)統(tǒng)不算是寫論文的時間。這 就導致,除非是某種特殊情況,專注于可復用的開放軟件的人很難在學術(shù)界獲得晉升的機會。這些可憐的人們,期待著在科學軟件的發(fā)展而不是研究論文中獲得成 就,往往會發(fā)現(xiàn)他們已置身于學術(shù)群體的邊緣。
某種程度上,這種斷層一直存在。學術(shù)界總獎勵某些技能,而損害其他技能:教學就是一個長期被邊緣化的技能。然而這其中的兩個主要的區(qū)別使得學術(shù)界的斷層更加令人擔憂:
前面提到的構(gòu)建和編寫軟件工具的技能,正滑向?qū)W術(shù)獎勵框架邊緣,而它恰恰是現(xiàn)代的研究能否成功的關(guān)鍵
幾乎全世界都在使用密集數(shù)據(jù)挖掘工具的同時,學術(shù)界忽略的不以為然的技術(shù)正是工業(yè)界最看重最鼓勵的
這場風暴導致技術(shù)純熟的研究者漸漸滑離研究而偏向工業(yè)界。學術(shù)界盡管也存在專注于軟件的工作,但那些工作基本薪水很低,沒有地位,也沒有晉升及機 會。與之相比,工業(yè)界吸引力超高:它致力于解決有趣的緊迫的問題,提供優(yōu)越的薪水和福利,幫助博士后從工作站之間的遷徙中解脫出來,甚至鼓勵基礎課題的研 究和發(fā)表。這種情況下還能留在學術(shù)界簡直是奇跡。
我所研究的天文學和天體物理領(lǐng)域尤其讓人擔心。LSST項目正在籌備這一個十年底的第一個目標:十年內(nèi)能夠?qū)崟r處理每晚30TB的數(shù)據(jù),這一目標極 其激進。要處理這樣大量的數(shù)據(jù),未來幾年,這個項目可能要招募數(shù)十名以數(shù)據(jù)為中心的天文學研究者。考慮到所需技術(shù)和當前的薪酬水平,以及學術(shù)界面向工程的 工作的發(fā)展前景,我很懷疑它能夠吸引到足夠的應聘者。
學術(shù)界該如何適應
不止我一人在考慮這些問題。我和國內(nèi)外很多人們討論過文中提到的一些話題,了解到有些制定政策的人們和資助機構(gòu)也正在思考這些嚴峻的問題。但是更現(xiàn) 實的問題是怎樣解決這些問題,阻止它惡化。抱怨學術(shù)界的文化是學者們的常事,Deidre McCloskey的“學術(shù)威望法則”印證了本文的一些觀點:越是實用的領(lǐng)域,越?jīng)]有地位。這話原是在哀嘆基本的論文像是新手的作品從而地位低下,卻很適 用于現(xiàn)在的主題。
我認為威望才是關(guān)鍵:學術(shù)界采取審慎的措施追趕工業(yè)界的腳步,對于數(shù)據(jù)驅(qū)動的研究必不可少的軟件,給予其開發(fā)者更多的聲望,才是解決這些問題的辦法。研究者,資助機構(gòu)和制定政策的人們也可以采取行動來促進這一過程。以下是一些建議:
學術(shù)刊物持續(xù)強調(diào)可重現(xiàn)的重要性?芍噩F(xiàn)性是科研過程本身必不可少的要素,而它依賴于開源的高質(zhì)量代碼。將這些代碼視作論文發(fā)表的重要組成部分,能夠提高軟件開發(fā)者在學術(shù)團體的地位。
推動建立終身制教授評價的新標準。新的標準同時考量公共軟件的開發(fā)和維護以及傳統(tǒng)的論文發(fā)表和教學,這樣投入到編寫整潔的公共代碼的時間就不會再被遏制。
創(chuàng)建并資助新的學術(shù)就業(yè)體制,幫助博士畢業(yè)生、博士后研究員、研究員和終身教授的就業(yè)。就業(yè)職位應特別看重和獎勵公共的,跨學科的科研軟件的開發(fā),從而為愿意構(gòu)建和維護通用的基礎軟件的研究者提供可行的學術(shù)職業(yè)發(fā)展道路。
提高博士后科研職位的薪酬。這個建議可能存在爭議,但現(xiàn)在的薪酬水平根本無法保持下去。NIH職位為應屆畢業(yè)的博士后提供的基本工資是每年四萬刀 以下。博士后工作七年漲到每年五萬刀。若精通構(gòu)建和維護軟件工具的應屆博士后就職于工業(yè)界,薪水會多出好幾倍,并且工業(yè)界尊重他們的計算能力,他們也可以 運用這些能力研究自己感興趣的問題。我很擔心,學術(shù)界不及時作出這些調(diào)整的話,未來幾年的科學研究將遭遇嚴重的障礙。
我們生活在一個振奮人心的時代,加速增長的收集、存儲、處理和學習海量數(shù)據(jù)的能力,使得我們對世界的科學認識的寬度和廣度都在增加。要保持這探索新 事物的節(jié)奏,我們需要激勵研究人員安于研究團體。這不是輕而易舉能解決的問題,但是努力才能保證科研在未來可以健康和可持續(xù)的發(fā)展。
我衷心的感謝眾多參與討論和推動這些想法的同事,尤其是Bill Howe以及Fernando Perez。同時也感謝我的好朋友Will Mari(@willthewordguy)的審閱和反饋。
中國-博士人才網(wǎng)發(fā)布
聲明提示:凡本網(wǎng)注明“來源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點或證實其內(nèi)容的真實性,文章內(nèi)容僅供參考。