他們用科研“整活”,也能改寫未來! 2025澳門資料大全免費(fèi)
近日,第五屆“上??萍记嗄?5人引領(lǐng)計(jì)劃”(u35)揭曉35位入選者和15位提名獎(jiǎng)得主。在ai、生物醫(yī)藥、量子信息、低碳能源等前沿交叉領(lǐng)域,他們敢想、敢做、敢于挑戰(zhàn)。
上??萍纪瞥鰑35系列專題,走近這些“90后”科技人才。聽他們講講科研里的b面人生,看他們?nèi)绾味x下一輪創(chuàng)新潮汐的起點(diǎn)。
2025年u35
當(dāng)代科技青年圖鑒
他們的研究有何價(jià)值?
35歲對(duì)他們來說意味著什么?
科研帶給他們的變化是什么?
讓我們走進(jìn)本期u35
本期嘉賓
@何聰輝(上海人工智能實(shí)驗(yàn)室)
上海人工智能實(shí)驗(yàn)室青年科學(xué)家,長(zhǎng)期深耕高性能計(jì)算與ai數(shù)據(jù)基礎(chǔ)設(shè)施的交叉前沿,致力于構(gòu)建面向通用人工智能的下一代數(shù)據(jù)基座。在計(jì)算機(jī)科學(xué)頂級(jí)會(huì)議上發(fā)表論文逾150篇,曾獲戈登·貝爾獎(jiǎng)(高性能計(jì)算應(yīng)用最高獎(jiǎng))等多項(xiàng)國(guó)際頂級(jí)榮譽(yù)。其打造的智能文檔解析引擎miner u,發(fā)布一年斬獲5萬github星標(biāo),其中omnidocbench作為唯一中國(guó)團(tuán)隊(duì)成果獲gemini3.0官方收錄驗(yàn)證;此外,他構(gòu)建了大模型開放數(shù)據(jù)平臺(tái)opendatalab,已為全球100多個(gè)國(guó)家提供400萬次數(shù)據(jù)服務(wù),為agi(通用人工智能)的演進(jìn)筑牢了關(guān)鍵的數(shù)據(jù)基石。
科學(xué)理想:
“打通數(shù)據(jù)通往智能的橋梁,讓ai-ready數(shù)據(jù)觸手可及。”
世界科技前沿
科研關(guān)鍵詞:
大模型、ai數(shù)據(jù)基礎(chǔ)設(shè)施、高性能計(jì)算
在人工智能高速發(fā)展的當(dāng)下,數(shù)據(jù)和算力已成為驅(qū)動(dòng)創(chuàng)新的關(guān)鍵資源。然而,如何將海量雜亂的數(shù)據(jù)轉(zhuǎn)化為大模型真正可理解、可學(xué)習(xí)的內(nèi)容,讓ai真正看懂人類世界,卻是行業(yè)面臨的核心議題。
對(duì)此,上海人工智能實(shí)驗(yàn)室青年科學(xué)家何聰輝提出一個(gè)生動(dòng)的比喻:“我們的工作,就像在人工智能領(lǐng)域搭建一座‘超級(jí)煉油廠’?!彼麑⒒ヂ?lián)網(wǎng)與人類文明中的海量原始數(shù)據(jù)比作“原油”,而ai大模型則是高性能“發(fā)動(dòng)機(jī)”,“如果把充滿雜質(zhì)的原油直接倒進(jìn)這樣一個(gè)精密的機(jī)器,大模型就會(huì)跑不起來,甚至壞掉?!焙温斴x解釋道。
為了將多模態(tài)的數(shù)據(jù)“原油”,提煉為ai可讀的高質(zhì)量“燃料”,何聰輝帶領(lǐng)團(tuán)隊(duì)采用“ai自動(dòng)化清洗數(shù)據(jù)”的思路,通過引入高性能計(jì)算技術(shù),構(gòu)建了可快速處理千億級(jí)規(guī)模的數(shù)據(jù)基座,“讓大模型跑得更快、更準(zhǔn),也讓真正ai-ready的數(shù)據(jù)對(duì)訓(xùn)模型、用模型的人觸手可及?!?/p>
基于這一強(qiáng)大數(shù)據(jù)基座,上海人工智能實(shí)驗(yàn)室還開源了“書生”系列大模型,走通了“通專融合”的技術(shù)路徑。系列模型不僅具備通用推理與多模態(tài)理解能力,更在生命科學(xué)、物質(zhì)科學(xué)等專業(yè)領(lǐng)域展現(xiàn)出超越一般模型的深度認(rèn)知與解題能力,真正實(shí)現(xiàn)了以高質(zhì)量數(shù)據(jù)驅(qū)動(dòng)前沿創(chuàng)新。
快問快答
@上??萍?/p>
作為程序員,您如何看待“35歲”的年齡梗?
@何聰輝
雖然很多人調(diào)侃“程序員35歲失業(yè)”,但在我看來,35歲是經(jīng)驗(yàn)和體力結(jié)合最好的時(shí)期。并且非常幸運(yùn)的是我們正趕上ai的黃金時(shí)代,我認(rèn)為我們這代人恰恰在此時(shí)迎來了施展拳腳的最大空間。
@上海科技
搭建數(shù)據(jù)基座時(shí)最大的難點(diǎn)是什么?您和團(tuán)隊(duì)是如何解決的?
@何聰輝
最大的挑戰(zhàn)是在極短時(shí)間內(nèi)處理極其龐大且多樣的數(shù)據(jù)。
由于數(shù)據(jù)的模態(tài)千差萬別,全靠人工“清洗”很難干完,所以我們訓(xùn)練了一個(gè)ai模型,用ai代替人工自動(dòng)處理數(shù)據(jù),可以說是“用魔法打敗魔法”。解決單份數(shù)據(jù)后,更大的挑戰(zhàn)在于如何實(shí)現(xiàn)百億、甚至千億規(guī)模的數(shù)據(jù)高效處理。因?yàn)槲以瓉硎茄芯扛咝阅苡?jì)算、超算領(lǐng)域的,于是我就把相關(guān)方法遷移過來,把數(shù)據(jù)處理任務(wù)變成了一個(gè)高性能計(jì)算問題。
最終,我們讓訓(xùn)練出來“最聰明”的模型跑在了最高效的算力架構(gòu)上。
@上??萍?/p>
在您開源的眾多大模型工具中,哪一款讓您印象深刻?為什么?
@何聰輝
在我主導(dǎo)的工作中,有一款開源的miner u工具,能夠把各種文檔數(shù)據(jù)轉(zhuǎn)化成ai可用的數(shù)據(jù)。
讓我特別意外的是,這個(gè)工具發(fā)布后的反響遠(yuǎn)超我們團(tuán)隊(duì)預(yù)期。僅僅一年時(shí)間,github星標(biāo)數(shù)就漲到了5萬,每天用戶調(diào)用量接近千萬次,熱度甚至超過了不少國(guó)內(nèi)的模型?,F(xiàn)在像華為、字節(jié)、騰訊等很多企業(yè)都在實(shí)際應(yīng)用它。這種“用腳投票”的認(rèn)可,讓我覺得自己的工作真正為社會(huì)創(chuàng)造了價(jià)值,不僅是科研中做好了一個(gè)模型,特別有成就感。
@上??萍?/p>
ai發(fā)展日新月異的今天,作為相關(guān)從業(yè)者您有沒有感到詫異的部分?
@何聰輝
現(xiàn)在的ai非常智能,我們常討論“具身智能”的未來。但某種意義上我覺得現(xiàn)在人變成了“具身”,而ai則成為了“智能”。越來越多人開始習(xí)慣聽取ai的建議,并將其落實(shí)到日常決策與行動(dòng)中。這意味著我們已提前進(jìn)入了一種“人機(jī)共生”的狀態(tài)。這雖然讓我們的生活變得高效,但我認(rèn)為也是一件需要我們謹(jǐn)慎對(duì)待的事。
@上海科技
在上海做科研,您有怎樣的感受?
@何聰輝
2022年底chatgpt掀起浪潮時(shí),我覺得必須和團(tuán)隊(duì)坐在一起全力投入這項(xiàng)變革性的事業(yè),于是從深圳來到上海,為構(gòu)建ai-ready大模型數(shù)據(jù)基礎(chǔ)設(shè)施奮斗。我覺得上海在開源方面的精神和我長(zhǎng)期從事的工具、數(shù)據(jù)開源工作很像,這里海納百川的開放與立足長(zhǎng)遠(yuǎn)的務(wù)實(shí)風(fēng)格,為我們下一代數(shù)據(jù)基礎(chǔ)設(shè)施的研發(fā)提供了良好的沃土。
“上海科技”出品,轉(zhuǎn)載請(qǐng)注明來源
企業(yè)及專家觀點(diǎn)不代表官方立場(chǎng)
作者:朱文瑩
拍攝、后期:gina.z 2025澳門資料免費(fèi)大全
上觀號(hào)作者:上??萍?/p>