亚洲无码午夜福利视频|日韩国产高清一区二区|欧美老熟妇XB水多毛多|狠狠色成人一区二区三区|在线观看国产精品露脸网站|在线观看一区二区三区视频|激情性无码视频在线观看动漫|99国产精品久久久久久久成人

您的位置:中國博士人才網(wǎng) > 新聞資訊 > 人才工作 > 當(dāng)身邊同學(xué)拿到80萬年薪Offer時(shí),你在干什么?

關(guān)注微信

當(dāng)身邊同學(xué)拿到80萬年薪Offer時(shí),你在干什么?

時(shí)間:2018-07-10來源:搜狐 作者:微胖
原標(biāo)題:當(dāng)身邊同學(xué)拿到80萬年薪Offer時(shí),這兩位清華博士卻想讓法律人用上真正的AI

撰文 | 微胖

中國有多少家法律 AI 創(chuàng)業(yè)公司?

總數(shù),恐怕還不足一個(gè)微信群成員上限的十分之一。

翻開斯坦福大學(xué)的百年人工智能報(bào)告,目錄中也看不到法律這個(gè)垂直細(xì)分領(lǐng)域。

有一百個(gè)邁向這個(gè)領(lǐng)域的動(dòng)力,也有一百個(gè)放棄的理由:

論蛋糕大小,遠(yuǎn)不及出行、醫(yī)療、安防、金融等領(lǐng)域。

論產(chǎn)品的革命性與戰(zhàn)略性意義,可能不及虛擬語音助手和人工智能芯片。

所以在這個(gè)領(lǐng)域,你看不到流連于熱門細(xì)分領(lǐng)域的頂級(jí)資本。

然而,創(chuàng)業(yè)者們要解決問題的難度,卻絲毫不亞于熱門細(xì)分領(lǐng)域,甚至可以說難度更大,但人才所能獲得的回報(bào)遠(yuǎn)不及巨頭開出的價(jià)碼。

一些國內(nèi)大型法律科技公司相關(guān)業(yè)務(wù)負(fù)責(zé)人曾告訴筆者,在吸引非常優(yōu)質(zhì)的 NLP 人才方面,他們根本不是巨頭和明星獨(dú)角獸公司的對(duì)手。

所以,當(dāng)你發(fā)現(xiàn)法律人使用的搜索工具還停留在連 20 年前的谷歌時(shí)代時(shí),也就不足為奇了。

不過最近,一家成立不久的法律 AI 創(chuàng)業(yè)公司冪律智能入駐清華科技園的創(chuàng)業(yè)大廈。這家由清華大學(xué)人工智能博士創(chuàng)立的公司想要用先進(jìn)的自然語言處理技術(shù)改變法律服務(wù)。

公司創(chuàng)始人、CEO 涂存超(左),清華大學(xué)劉知遠(yuǎn)教授(右)

一、為什么是法律?

今年三月,冪律獲得近千萬元天使輪融資。公司創(chuàng)始人涂存超是清華大學(xué)計(jì)算機(jī)系人工智能所應(yīng)屆博士研究生,和他一同創(chuàng)業(yè)的張?zhí)鞊P(yáng)是他的本科同學(xué),同樣剛剛拿到清華計(jì)算機(jī)系的博士學(xué)位。

「我做社交網(wǎng)絡(luò)數(shù)據(jù)挖掘,涂存超之前也做一些 network embedding 的工作。」張?zhí)鞊P(yáng)介紹道。

公司聯(lián)合創(chuàng)始人張?zhí)鞊P(yáng)

涂存超最初的想法很樸素:學(xué)以致用,希望能夠通過博士期間所學(xué)真正去改變一個(gè)領(lǐng)域,而不是在一個(gè)大公司里扮演著螺絲釘?shù)慕巧?/span>

最開始,他們也考慮了一些熱門的領(lǐng)域,比如金融、醫(yī)療、教育等行業(yè),但后來發(fā)現(xiàn)這些行業(yè)的數(shù)據(jù)壁壘比較嚴(yán)重。

「如果做醫(yī)療,你必須得跟某個(gè)醫(yī)院合作才能拿到數(shù)據(jù),這可能需要比較多的社會(huì)的資源。」對(duì)于從本科一直讀到博士,沒有太多社會(huì)資源的創(chuàng)業(yè)者來說,這個(gè)難度確實(shí)比較大。

一次偶然的機(jī)會(huì),跟律師界朋友聊了后,他們發(fā)現(xiàn)法律行業(yè)是一個(gè)特別重文本的行業(yè),而且文本質(zhì)量特別高。

事實(shí)上,全國諸多法院在經(jīng)過 20 年的信息化建設(shè)后,流程數(shù)據(jù)、證據(jù)數(shù)據(jù)、文書數(shù)據(jù)、檔案數(shù)據(jù)等都比較完整。

特別是,中國裁判文書網(wǎng)上的幾千萬裁判文書都是公開的。

「與其它垂直領(lǐng)域相比,這些都是非常好的文本信息,質(zhì)量非常高,都是法官寫的,表述更加嚴(yán)謹(jǐn)規(guī)范,而且數(shù)量足夠大。每個(gè)文書都有非常詳細(xì)的標(biāo)注。比如,涉及哪些法條、犯哪些罪、量刑結(jié)果是什么、什么時(shí)間、發(fā)生的地域、法官是誰、代理律師是誰?這些標(biāo)注信息以及眾多的場(chǎng)景非常適合 NLP 技術(shù)的落地!涂存超說,

除了這些案例文書,法律領(lǐng)域還擁有法律法規(guī)、法學(xué)文獻(xiàn)、合同協(xié)議等豐富的文本數(shù)據(jù),這些數(shù)據(jù)也為法律智能提供了豐富的應(yīng)用場(chǎng)景。

「我們很務(wù)實(shí),覺得這個(gè)方向前景很好,而且堅(jiān)信技術(shù)一定能夠在這個(gè)方向發(fā)揮重要作用,所以立馬開始這個(gè)方向的調(diào)研、技術(shù)開發(fā)和嘗試。在抓取了幾千萬份數(shù)據(jù)后,我們首先做了一個(gè)智能檢索引擎!箯?zhí)鞊P(yáng)說。

至于為什么首先做搜索,一方面,檢索是基礎(chǔ)性工具,是法律行業(yè)初級(jí)從業(yè)者的基礎(chǔ)性需求;另一方面,現(xiàn)有的法律搜索已經(jīng)和百度、谷歌存在非常明顯的技術(shù)代差。

用戶已經(jīng)習(xí)慣了通用領(lǐng)域的基于語義理解的檢索方式,在百度或谷歌里檢索大段文本,或者直接問一個(gè)問題,系統(tǒng)可以直接給你答案。但是,法律領(lǐng)域的檢索工具還停留在關(guān)鍵詞搜索。

比如,律師遇到一個(gè)案件或者糾紛,就必須得檢索根據(jù)自己的工作經(jīng)驗(yàn)總結(jié)出來一些關(guān)鍵詞,而且只有詞表里有的關(guān)鍵詞,才能檢索到結(jié)果。如果一句很簡(jiǎn)單的自然語言形式的輸入,用戶可能就檢索不出結(jié)果。

「這種檢索方式甚至連 20 年前的谷歌搜索技術(shù)都不如,」張?zhí)鞊P(yáng)說。

去年四月,他們決定做這個(gè)事情。一年多后,他們發(fā)現(xiàn),NLP 在法律領(lǐng)域的應(yīng)用潛力還不止這些,比如,輔助量刑、合規(guī)審查、法律風(fēng)險(xiǎn)提示、智能法律咨詢等,都有著非常好的前景和可行性。

我們堅(jiān)持做法律,有一個(gè)很重要的原因,就是我們覺得它更有可能做出來!雇看娉f。

「最近一年的發(fā)展,也印證了這個(gè)想法!箯?zhí)鞊P(yáng)補(bǔ)充道。

二、怎樣的一款產(chǎn)品?

輸入一段案情,或者一些法律要件的組合、甚至將整個(gè)案件或判決直接輸進(jìn)去,系統(tǒng)就可以識(shí)別出使用者的使用意圖,然后在相應(yīng)的地方進(jìn)行識(shí)別語義,匹配到可能相似的案件。

坦白說,這樣的法律檢索工具會(huì)非常吸引人,和 ROSS 做的事情也有些類似。據(jù)說,體驗(yàn)過產(chǎn)品原型的業(yè)內(nèi)人士也驚訝于檢索效果。

冪律的檢索系統(tǒng)(年底會(huì)做出一個(gè)產(chǎn)品)有兩個(gè)亮點(diǎn):意圖識(shí)別和根據(jù)語義進(jìn)行匹配。

意圖識(shí)別系統(tǒng),能夠理解用戶帶著什么樣的目的搜索這個(gè)案子,用戶到底是想要有什么。

比如,類案推送、爭(zhēng)議焦點(diǎn),還是條文查詢。

「每一個(gè)領(lǐng)域的律師想要的東西可能也不完全一樣。做產(chǎn)品設(shè)計(jì)的時(shí)候,我們會(huì)調(diào)研不同應(yīng)用場(chǎng)景,不同律師檢索時(shí)想知道什么,接下來想做什么,為他們提供更好的搜索結(jié)果!箯?zhí)鞊P(yáng)說。

而基于語義理解進(jìn)行類案匹配,會(huì)將文本的深度分析技術(shù),比如關(guān)鍵詞抽取、關(guān)系和事件抽取、摘要生成等,適配到法律語境中。

「我們也在考慮,檢索出來海量相似案例之后,怎么樣就此生成一個(gè)報(bào)告!雇看娉f。

這與 ROSS 在一年多前接受我們的采訪時(shí)曾表達(dá)過的想法,不謀而合:

「接下來幾年的最大目標(biāo)之一,希望 ROSS 可以瀏覽多個(gè)案例和證據(jù),然后生成備忘錄,總結(jié)問題,并列出不同觀點(diǎn)。這將會(huì)改變律師們研究案子的方式!

「我們最核心能力,肯定還是 NLP 的基礎(chǔ)技術(shù)!雇看娉f,

「具體到法律領(lǐng)域,我認(rèn)為,現(xiàn)在應(yīng)該做類案匹配和判決預(yù)測(cè)。這兩個(gè)方面,我們算是做得最早,也應(yīng)該是做得最好的!

因此,除了所有法律人都會(huì)關(guān)注的類案推薦,他們也在將 NLP 技術(shù)用于判決預(yù)測(cè)。

比如,多模態(tài)異構(gòu)信息融合。如何融合案件判決時(shí)所要考慮的多文本信息(法律法規(guī)、司法解釋、甚至工商信息等),以便更好進(jìn)行結(jié)果預(yù)測(cè)。

另外,預(yù)測(cè)判決罪名、量刑還涉及智能推理決策技術(shù),比如如何模擬法官判案邏輯,在系統(tǒng)中引入推理能力。

而他們?cè)谶@方面的研究正在得到學(xué)術(shù)上的肯定。

一個(gè)月前,涂存超參與的一篇研究罪名預(yù)測(cè)的論文 Few-Shot Charge Prediction with Discriminative Legal Attributes發(fā)表在了 NLP 四大頂會(huì)之一 COLING2018。

我們知道,罪名分布也是典型的長(zhǎng)尾分布(冪律分布的一種形式,現(xiàn)在你知道公司名字的由來了):

如盜竊罪、搶劫罪等占了接近一半的案件。比較低頻的幾十個(gè)罪名,可能只占了百分之零點(diǎn)幾。

幾千萬案例文書當(dāng)中,幾個(gè)高頻罪名,比如盜竊罪、搶劫罪等占了接近一半的案件。比較低頻的幾十個(gè)罪名,可能只占了百分之零點(diǎn)幾。

但是,在目前的罪名預(yù)測(cè)研究中,低頻罪名的處理效果并不理想。

傳統(tǒng)上,罪名預(yù)測(cè)一般被當(dāng)作文本分類任務(wù)處理,利用案件相關(guān)的一些淺層文本文本特征或者屬性特征來預(yù)測(cè)結(jié)果。

近些年來,也有基于神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)分類模式的嘗試,但也不能很好處理低頻罪名和混淆罪名的問題。

涂存超所在的團(tuán)隊(duì)通過模擬法官的定罪邏輯,引入 10 個(gè)有代表性的區(qū)分性屬性(盈利、買賣行為、死亡情節(jié)、暴力行為等),作為事實(shí)描述到罪名的中間映射。

通過利用注意力機(jī)制生成與屬性相關(guān)的事實(shí)表示,對(duì)一個(gè)案件的不同屬性進(jìn)行預(yù)測(cè),進(jìn)而預(yù)測(cè)最終罪名結(jié)果。結(jié)果,這一方法在低頻罪名預(yù)測(cè)上獲得了接近 50% 的提升。

現(xiàn)在的模型取得了較為理想的預(yù)測(cè)結(jié)果,然而,其中的可解釋性也需要進(jìn)一步挖掘,對(duì)一個(gè)法律產(chǎn)品的使用來說,這也是不可忽視的方面之一。

「智能推理決策當(dāng)中,這種可解釋性的問題也非常重要!雇看娉f,法官必須知道其所以然。

在技術(shù)方法上,引入知識(shí)圖譜、法律先驗(yàn)知識(shí),模擬法律人的思維邏輯,有可能打破法律智能的黑箱問題。

劉知遠(yuǎn)教授曾經(jīng)談及先驗(yàn)語言知識(shí)與深度學(xué)習(xí)模型的有機(jī)融合對(duì)于理解世界的作用。他的團(tuán)隊(duì)也在模型中考慮先驗(yàn)知識(shí)的作用,并做出了一些嘗試。

作為劉知遠(yuǎn)教授的博士研究生,涂存超最近也在做一些技術(shù)上的突破,

「看能否將現(xiàn)有的一些可解釋性研究,適配到法律智能領(lǐng)域。我們會(huì)有一些應(yīng)用,也會(huì)針對(duì)實(shí)際情況進(jìn)行一些改進(jìn)!雇看娉f。

三、怎樣的一支團(tuán)隊(duì)?

目前,國外大多數(shù)法律 AI 創(chuàng)業(yè)公司都少不了具有法律背景的核心成員(創(chuàng)始人或者聯(lián)創(chuàng)),比如 ROSS、LawGeex 以及被 LexisNexis 先后收購的 Lex Machina 和 Ravel Law 等。國內(nèi)更是如此,比如華宇元典、無訟、律品等。

冪律是為數(shù)甚少由純技術(shù)出身創(chuàng)業(yè)者組建的法律AI團(tuán)隊(duì)。

涂存超和張?zhí)鞊P(yáng)曾參加過數(shù)學(xué)和物理奧賽,其他一些團(tuán)隊(duì)成員曾是信息學(xué)奧賽國家集訓(xùn)隊(duì)成員。換句話說,這些人工智能專業(yè)的博士們幾乎有著類似的學(xué)霸型人生軌跡:

奧賽——保送清華——一路讀到博士——創(chuàng)業(yè)。

剛開始接觸這個(gè)領(lǐng)域的時(shí)候,對(duì)法律知識(shí)和行業(yè)的了解還停留在大學(xué)本科政治課的范圍內(nèi)。

研究人員或許可以做一款優(yōu)秀的產(chǎn)品,但這不一定意味商業(yè)上的成功。為避免陷入「技術(shù)為王」,一些投資人在建議技術(shù)見長(zhǎng)的團(tuán)隊(duì)初期尋找合伙人時(shí),仍要重視市場(chǎng)、商務(wù)等因素對(duì)公司的重要推動(dòng)作用。

「從剛開始做這個(gè)東西時(shí),我們就已經(jīng)意識(shí)到這個(gè)問題!箯?zhí)鞊P(yáng)說,

「我們也正在努力尋找這方面的人才,無論是實(shí)習(xí)生、全職還是合伙人,我們一直都在尋找。」

不過,冪律現(xiàn)在做的法律檢索工具,更多的是將一個(gè)略成熟技術(shù)進(jìn)行應(yīng)用,對(duì)技術(shù)的需求更大。因此,通過與律師朋友、法學(xué)院同學(xué)、老師,包括一些公司合作來獲取法律資源的模式,足夠應(yīng)對(duì)當(dāng)下的法律需求。

在交流過程中,我們?nèi)匀豢梢泽w會(huì)到算法創(chuàng)業(yè)團(tuán)隊(duì)對(duì)技術(shù)的高度重視。

法律人主導(dǎo)的團(tuán)隊(duì)會(huì)使用開源工具,但是,冪律的團(tuán)體知道如何改進(jìn)這個(gè)工具。

比如,根據(jù)法律把分詞作好,需要更有經(jīng)驗(yàn)的人。

涂存超曾參與過人工智能所開源分詞工具的開發(fā),「知道怎么去做一個(gè)分詞工具,怎么去改進(jìn)一個(gè)分詞工具,和只會(huì)直接用一個(gè)開源分詞工具,效果是有區(qū)別的!箯?zhí)鞊P(yáng)說。

算法、法律知識(shí)圖譜方面,也是如此。

「劉知遠(yuǎn)教授是做知識(shí)圖譜的,我對(duì)知識(shí)圖譜也算比較了解!雇看娉f。在他看來,并不是誰先花了很多資源構(gòu)建出這個(gè)東西,誰就能獲得先發(fā)優(yōu)勢(shì)。關(guān)鍵仍在于,誰能構(gòu)建出一個(gè)真正在算法上可用并能提升效果的法律知識(shí)圖譜。

在他們看來,法律人主導(dǎo)的 AI 創(chuàng)業(yè)公司也會(huì)存在一些不足。

「他們對(duì)技術(shù)的理解,與真正做 NLP 的人的理解,可能完全不一樣!箯?zhí)鞊P(yáng)說。

冪律考慮的是什么樣的算法能幫助這個(gè)領(lǐng)域提升工具效力,然后才考慮將它設(shè)計(jì)成一個(gè)很好的產(chǎn)品,但有一些競(jìng)爭(zhēng)對(duì)手考慮更多的可能是尋找一個(gè)新的賣點(diǎn),把東西賣出去,但產(chǎn)品里面甚至沒有真正算法部分。

四、什么樣的產(chǎn)品進(jìn)階之路?

現(xiàn)階段的人工智能,更多扮演著賦能行業(yè)的角色。

許多法律AI初創(chuàng)公司的初衷,都是想讓技術(shù)惠及 C 端客戶,但最終落地時(shí)幾乎都選擇了服務(wù) B 端,比如,法院、公司法務(wù)部門和律所。

相較于 C 端,B 端用戶既保證了需求的體量與頻次,對(duì)產(chǎn)品價(jià)格也不會(huì)特別敏感。

冪律也表達(dá)了類似的規(guī)劃,「短期來看,無論數(shù)據(jù)條件、市場(chǎng)盈利模式、還是技術(shù)方面,短期內(nèi)都做不到(C 端)。所以,我們先為律所甚至法官、檢察官等從業(yè)者提供一個(gè)自然語言檢索工具!張?zhí)鞊P(yáng)說,

「他們的需求比較高頻,尤其是初級(jí)律師,檢索的質(zhì)量和效率都是瓶頸,所以,第一階段比較明確要做的,就是這個(gè)自然語言檢索平臺(tái)!

雖然這意味著,他們第一階段的產(chǎn)品會(huì)和北大法寶,無訟等以案例為主的檢索很相似,「但是,我們可能提供的功能會(huì)更強(qiáng)大!張?zhí)鞊P(yáng)說。

不過,在通用技術(shù)上進(jìn)行必要的積累、提供一些突破之后,冪律會(huì)考慮將基礎(chǔ)性技術(shù)應(yīng)用到具體細(xì)分方向。長(zhǎng)期來看,冪律仍然希望能夠打造一個(gè)能夠面向 2C 的更通用的法律智能(平臺(tái)),降低普通人享受法律服務(wù)的門檻。

五、怎樣的決心?

對(duì)涂存超來說,過去一年讓他印象最深刻的體驗(yàn)是法律人和人工智能研究人員之間的那段「最遠(yuǎn)距離」。

無論是研究還是產(chǎn)品,他們都深深感受到了橫梗在專業(yè)之間的知識(shí)壁壘。

比如,類案匹配引擎研究中,大家對(duì)什么是類案的理解完全不同。

「不光是法律知識(shí)對(duì)我們來說的一個(gè)壁壘,就連他們覺得什么樣的案子是相似的,我也完全不知道!苟硪环矫,法律人士對(duì)于技術(shù)該怎么解決這個(gè)問題,也完全沒有概念。

「雙方之間存在的這種知識(shí)壁壘,包括交流成本都非常高!涂存超說。

其實(shí),涂存超的體驗(yàn)幾乎是這個(gè)領(lǐng)域所有從業(yè)者的共鳴。但只要我們回顧一下,法律本科生沒有高數(shù)要求,理工科本科學(xué)生僅在政治課中感受過法律,就不難理解這個(gè)交叉領(lǐng)域里的巴別塔現(xiàn)象了。

盡管如此,他們?nèi)匀环磸?fù)強(qiáng)調(diào),冪律打算長(zhǎng)期做這個(gè)事情,雖然創(chuàng)業(yè)仍然不是當(dāng)下人工智能博士們的主流選擇。

當(dāng)身邊有些同學(xué)拿到 80 多萬年薪的 Offer 時(shí),涂存超和張?zhí)鞊P(yáng)卻告訴我們,在求職季里,他們一份簡(jiǎn)歷都沒有投,因?yàn)楫?dāng)時(shí)已經(jīng)決定創(chuàng)業(yè),雖然還沒拿到任何投資。

即使在敲定投資人方面,他們更多的還是考慮投資人與公司的優(yōu)勢(shì)互補(bǔ)與業(yè)務(wù)發(fā)展。

「無論是我們還是投資人和業(yè)界朋友,他們都看好這個(gè)領(lǐng)域的前景!箯?zhí)鞊P(yáng)說。

采訪接近結(jié)束時(shí),我看到在還來不及收拾整理的會(huì)議室的黑板上,赫然寫著法律人再熟悉不過的三段論,團(tuán)隊(duì)最近還學(xué)習(xí)了犯罪四要件和三階層。

「目前為止,我們沒有遇到過任何一家公司,他們已經(jīng)有非常好的項(xiàng)目經(jīng)理來處理技術(shù)和法律兩方面的問題。」我突然想到 IBM Watson Legal 的聯(lián)合創(chuàng)始人、首席專家 Brian Kuhn 在一年前曾分享過的一個(gè)觀察。

一個(gè)成功的法律AI創(chuàng)業(yè)團(tuán)隊(duì),至少有能力將世界上「最遠(yuǎn)距離」的兩種思維比較好地結(jié)合起來。

征途,才剛剛開始。

為防止簡(jiǎn)歷投遞丟失請(qǐng)抄送一份至:boshijob@126.com(郵件標(biāo)題格式:應(yīng)聘職位名稱+姓名+學(xué)歷+專業(yè)+中國博士人才網(wǎng))

中國-博士人才網(wǎng)發(fā)布

聲明提示:凡本網(wǎng)注明“來源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,文章內(nèi)容僅供參考。

相關(guān)文章