大數(shù)據(jù)人才流失：科研為何陷入困境

時間:2014-05-13來1源:開源中國社區(qū) 作者:91boshi

　　無論無處不在的“大數(shù)據(jù)”概念引起怎樣的聯(lián)想，逐步增長的數(shù)據(jù)規(guī)模確是改變著我們和世界的交互方式。這在工業(yè)界、政界、媒體、學術(shù)界，幾乎任何領(lǐng)域，都是事實。逐漸增強的對大數(shù)據(jù)進行收集、處理、抽象化，并從中得到啟發(fā)的能力，拓寬了我們的知識面。

人才網(wǎng)

　　然而近年來，科學研究領(lǐng)域加速轉(zhuǎn)變到以數(shù)據(jù)為核心，是有負面影響的�？偨Y(jié)來說就是：稱職的科學研究者需要的能力，和稱職的工業(yè)界從業(yè)人員需要的能力，越來越無法區(qū)分。具有典型惰性的學術(shù)界剛剛開始適應這一轉(zhuǎn)變，而其他領(lǐng)域早已開始大規(guī)模鼓勵和獎勵這種能力。不幸的是，這導致了很多有才的準研究者難以在學術(shù)界立足，只能投入財大氣粗的工業(yè)界的懷抱。

　　數(shù)據(jù)的神奇效果

　　20世紀60年代，物理學家Eugene Wigner發(fā)表了他的著作：數(shù)學在自然科學界的神奇效果。它論述了抽象的數(shù)學概念在上下文中的有效性，遠遠超過產(chǎn)生這些概念的上下文，其差距到了驚人的地步。畢竟，誰能想到Riiemannn在20世紀研究的非歐集合會是愛因斯坦重新思考萬有引力的基礎？誰又能想到，抽象固體的旋轉(zhuǎn)群的編纂幾乎最終導致了物理學家成功地預測希格斯玻色子的存在？

　　谷歌研究者Alon Halevy， Peter Norving和Fernando Pereira于2009年以“數(shù)據(jù)的神奇效果”為題發(fā)表的文章響應了這一觀點。文章展現(xiàn)其驚人的洞察力：只要有足夠的數(shù)據(jù)，數(shù)學模型的斟酌選擇不再重要 —尤其是對他們所研究的自動語言翻譯來說，“比起很少的數(shù)據(jù)及其精確模型，簡單模型和大量的數(shù)據(jù)更有勝算”。

　　如果我們大膽假設這個觀點可以延伸（至少是部分延伸）至自然語言處理之外，那么僅僅是數(shù)據(jù)挖掘這一項技能都會逐步打敗領(lǐng)域知識。我相信這一預言已被證實：眾多學術(shù)領(lǐng)域，有效地處理數(shù)據(jù)的能力正在取代其他更經(jīng)典的研究模式。

　　我并不是說對某一領(lǐng)域的精通已經(jīng)完全過時。如果不理解粒子相互作用理論，大型強子對撞機（LHC）產(chǎn)生的10Gb每秒的速度將一無用處，就像只有理解物理過程驅(qū)動空間爆炸的理論，大型天文望遠鏡（LSST）產(chǎn)生的每晚15TB的原圖像數(shù)據(jù)才能幫助我們理解宇宙學。然而，LHC和LSST反映了越來越普遍的現(xiàn)象：科學研究結(jié)果完全依賴對大量數(shù)據(jù)的精確分析。實際上，我們發(fā)現(xiàn)，即使數(shù)據(jù)量并不足夠“大”，能夠?qū)λ鼈兲幚怼⒊橄�、挖掘和從�?shù)據(jù)中學習的研究者也在逐步促進科學進步。

　　新型科學家

　　從某種意義來說，數(shù)據(jù)驅(qū)動的研究是過去的研究趨勢的簡單延續(xù)。自16-17世紀科研分離出亞里士多德哲學，科學進步已基本依賴試驗和觀察。要知道，是第谷16世紀開創(chuàng)性的對天空的研究，促動了17世紀開普勒的行星運動規(guī)律的研究，繼而為牛頓的萬有引力定律鋪平道路，最終形成愛因斯坦的廣義相對論�？� 學家始終在努力處理數(shù)據(jù)，區(qū)別只在于這一努力如今正成為科學研究過程的核心。

　　不過，科學研究逐步以數(shù)據(jù)為中心已經(jīng)產(chǎn)生了解決問題的新辦法：進入LHC、LSST時代，善于運用高性能并行數(shù)據(jù)統(tǒng)計算法探索大量的群體性數(shù)據(jù)集的研究者，以及新的統(tǒng)計方法、機器學習算法、高速代碼，以前所未有的規(guī)模重復進行典型分析的應用，推動了振奮人心的研究。簡而言之，新型科學家一定是精通統(tǒng) 計、計算、構(gòu)建算法、軟件設計、領(lǐng)域技能（可能作事后使用）的多棲專家。在粒子物理學、生物學、化學、神經(jīng)科學、海洋科學、大氣物理學等幾乎所有領(lǐng)域，研究越來越趨向于數(shù)據(jù)驅(qū)動，同時數(shù)據(jù)收集的速度絲毫沒有放緩的跡象。

　　科學軟件的基礎作用

　　科學軟件的共同點，是這些工作都離不開編寫代碼。高質(zhì)量的、組織良好的公共代碼才能對科學過程極為重要的重現(xiàn)產(chǎn)生影響。諸多公共軟件都是關(guān)于當前的非再生性科學危機、新的出版形式的需要、新的研究、代碼和數(shù)據(jù)公開訪問。此處不再詳談更多。

　　此處我想詳細討論的是，優(yōu)化的專業(yè)軟件對大型數(shù)據(jù)集分析和抽象的核心作用，以及它成為現(xiàn)代科學研究的核心的演繹過程。我的合作者Gael Varoquauz以及他的同事最近發(fā)表評論證實了這一觀點（見Gael的簡介），并就公共的，組織良好的健壯的科學代碼對于現(xiàn)代科學研究的重現(xiàn)性和研究本身的進步都必不可少這一論點進行了實例研究。過去的研究結(jié)果，如果只是在論文中簡單提及，而產(chǎn)生這結(jié)果的實際過程的代碼未經(jīng)組織，這樣的結(jié)果就不能作為新的研究的基礎。就像是Buckheit和Donoho曾說的：

　　學術(shù)期刊上的計算科學的文章并不是學術(shù)，他們只是學術(shù)的幌子。真正的學術(shù)是完整的軟件開發(fā)環(huán)境，以及計算出數(shù)字的完整指令集。

　　公開代碼看起來像是馬后炮，但是一般來講，僅僅發(fā)布代碼是不夠的。像Brandon Rhodes在Rupy 2013 Talk中說的那樣，“一個程序運行正常，總好過它勉強能正常運行”。讓代碼對在科學研究之外的作者有用需要相當大的投入。這種項目具有難以估計的價值，就像NumPy項目，Scikit-learn項目，等等。它們?yōu)檠芯空咛峁┮粋€框架，在此框架下，代碼可以共享，在github上共同審閱和發(fā)布，以此造福研究社區(qū)。

　　學術(shù)界的斷層

　　這是學術(shù)界的弊病：盡管有層次的高質(zhì)量軟件正成為現(xiàn)在的科學研究模式的核心，并且這些實踐將有助于學術(shù)研究的成功，學術(shù)界卻非常成功的阻止了這一實踐。“發(fā)表或者毀滅”的模式中，論文制約著大多數(shù)研究型高校，相當于學術(shù)獎勵框架的貨幣，而花費在構(gòu)建和編寫軟件工具上的時間統(tǒng)統(tǒng)不算是寫論文的時間。這就導致，除非是某種特殊情況，專注于可復用的開放軟件的人很難在學術(shù)界獲得晉升的機會。這些可憐的人們，期待著在科學軟件的發(fā)展而不是研究論文中獲得成就，往往會發(fā)現(xiàn)他們已置身于學術(shù)群體的邊緣。

　　某種程度上，這種斷層一直存在。學術(shù)界總獎勵某些技能，而損害其他技能：教學就是一個長期被邊緣化的技能。然而這其中的兩個主要的區(qū)別使得學術(shù)界的斷層更加令人擔憂：

　　前面提到的構(gòu)建和編寫軟件工具的技能，正滑向?qū)W術(shù)獎勵框架邊緣，而它恰恰是現(xiàn)代的研究能否成功的關(guān)鍵

　　幾乎全世界都在使用密集數(shù)據(jù)挖掘工具的同時，學術(shù)界忽略的不以為然的技術(shù)正是工業(yè)界最看重最鼓勵的

　　這場風暴導致技術(shù)純熟的研究者漸漸滑離研究而偏向工業(yè)界。學術(shù)界盡管也存在專注于軟件的工作，但那些工作基本薪水很低，沒有地位，也沒有晉升及機會。與之相比，工業(yè)界吸引力超高：它致力于解決有趣的緊迫的問題，提供優(yōu)越的薪水和福利，幫助博士后從工作站之間的遷徙中解脫出來，甚至鼓勵基礎課題的研究和發(fā)表。這種情況下還能留在學術(shù)界簡直是奇跡。

　　我所研究的天文學和天體物理領(lǐng)域尤其讓人擔心。LSST項目正在籌備這一個十年底的第一個目標：十年內(nèi)能夠?qū)崟r處理每晚30TB的數(shù)據(jù)，這一目標極其激進。要處理這樣大量的數(shù)據(jù)，未來幾年，這個項目可能要招募數(shù)十名以數(shù)據(jù)為中心的天文學研究者。考慮到所需技術(shù)和當前的薪酬水平，以及學術(shù)界面向工程的工作的發(fā)展前景，我很懷疑它能夠吸引到足夠的應聘者。

　　學術(shù)界該如何適應

　　不止我一人在考慮這些問題。我和國內(nèi)外很多人們討論過文中提到的一些話題，了解到有些制定政策的人們和資助機構(gòu)也正在思考這些嚴峻的問題。但是更現(xiàn) 實的問題是怎樣解決這些問題，阻止它惡化。抱怨學術(shù)界的文化是學者們的常事，Deidre McCloskey的“學術(shù)威望法則”印證了本文的一些觀點：越是實用的領(lǐng)域，越?jīng)]有地位。這話原是在哀嘆基本的論文像是新手的作品從而地位低下，卻很適用于現(xiàn)在的主題。

　　我認為威望才是關(guān)鍵：學術(shù)界采取審慎的措施追趕工業(yè)界的腳步，對于數(shù)據(jù)驅(qū)動的研究必不可少的軟件，給予其開發(fā)者更多的聲望，才是解決這些問題的辦法。研究者，資助機構(gòu)和制定政策的人們也可以采取行動來促進這一過程。以下是一些建議：

　　學術(shù)刊物持續(xù)強調(diào)可重現(xiàn)的重要性�？芍噩F(xiàn)性是科研過程本身必不可少的要素，而它依賴于開源的高質(zhì)量代碼。將這些代碼視作論文發(fā)表的重要組成部分，能夠提高軟件開發(fā)者在學術(shù)團體的地位。

　　推動建立終身制教授評價的新標準。新的標準同時考量公共軟件的開發(fā)和維護以及傳統(tǒng)的論文發(fā)表和教學，這樣投入到編寫整潔的公共代碼的時間就不會再被遏制。

　　創(chuàng)建并資助新的學術(shù)就業(yè)體制，幫助博士畢業(yè)生、博士后研究員、研究員和終身教授的就業(yè)。就業(yè)職位應特別看重和獎勵公共的，跨學科的科研軟件的開發(fā)，從而為愿意構(gòu)建和維護通用的基礎軟件的研究者提供可行的學術(shù)職業(yè)發(fā)展道路。

　　提高博士后科研職位的薪酬。這個建議可能存在爭議，但現(xiàn)在的薪酬水平根本無法保持下去。NIH職位為應屆畢業(yè)的博士后提供的基本工資是每年四萬刀以下。博士后工作七年漲到每年五萬刀。若精通構(gòu)建和維護軟件工具的應屆博士后就職于工業(yè)界，薪水會多出好幾倍，并且工業(yè)界尊重他們的計算能力，他們也可以運用這些能力研究自己感興趣的問題。我很擔心，學術(shù)界不及時作出這些調(diào)整的話，未來幾年的科學研究將遭遇嚴重的障礙。

　　我們生活在一個振奮人心的時代，加速增長的收集、存儲、處理和學習海量數(shù)據(jù)的能力，使得我們對世界的科學認識的寬度和廣度都在增加。要保持這探索新事物的節(jié)奏，我們需要激勵研究人員安于研究團體。這不是輕而易舉能解決的問題，但是努力才能保證科研在未來可以健康和可持續(xù)的發(fā)展。

　　我衷心的感謝眾多參與討論和推動這些想法的同事，尤其是Bill Howe以及Fernando Perez。同時也感謝我的好朋友Will Mari（@willthewordguy）的審閱和反饋。

中國-博士人才網(wǎng)發(fā)布

聲明提示：凡本網(wǎng)注明“來源：XXX”的文/圖等稿件，本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的，并不意味著本站贊同其觀點或證實其內(nèi)容的真實性，文章內(nèi)容僅供參考。

相關(guān)文章

亚洲无码午夜福利视频|日韩国产高清一区二区|欧美老熟妇XB水多毛多|狠狠色成人一区二区三区|在线观看国产精品露脸网站|在线观看一区二区三区视频|激情性无码视频在线观看动漫|99国产精品久久久久久久成人

英國《物理世界》雜志戰(zhàn)略合作伙伴，海內(nèi)外高層次人才服務中心！

人才論點

哲學類：

經(jīng)濟學類：

文學類：

歷史學類：

管理學類：

藝術(shù)學類：

地區(qū)
招聘

熱點
招聘

關(guān)注微信

人才工作

人才論點

高層動態(tài)

科研動態(tài)

大數(shù)據(jù)人才流失：科研為何陷入困境

重點招聘