他們用科研“整活”,也能改寫未來! 2025澳門資料大全免費
近日,第五屆“上??萍记嗄?5人引領計劃”(u35)揭曉35位入選者和15位提名獎得主。在ai、生物醫(yī)藥、量子信息、低碳能源等前沿交叉領域,他們敢想、敢做、敢于挑戰(zhàn)。
上??萍纪瞥鰑35系列專題,走近這些“90后”科技人才。聽他們講講科研里的b面人生,看他們?nèi)绾味x下一輪創(chuàng)新潮汐的起點。
2025年u35
當代科技青年圖鑒
他們的研究有何價值?
35歲對他們來說意味著什么?
科研帶給他們的變化是什么?
讓我們走進本期u35
本期嘉賓
@何聰輝(上海人工智能實驗室)
上海人工智能實驗室青年科學家,長期深耕高性能計算與ai數(shù)據(jù)基礎設施的交叉前沿,致力于構(gòu)建面向通用人工智能的下一代數(shù)據(jù)基座。在計算機科學頂級會議上發(fā)表論文逾150篇,曾獲戈登·貝爾獎(高性能計算應用最高獎)等多項國際頂級榮譽。其打造的智能文檔解析引擎miner u,發(fā)布一年斬獲5萬github星標,其中omnidocbench作為唯一中國團隊成果獲gemini3.0官方收錄驗證;此外,他構(gòu)建了大模型開放數(shù)據(jù)平臺opendatalab,已為全球100多個國家提供400萬次數(shù)據(jù)服務,為agi(通用人工智能)的演進筑牢了關鍵的數(shù)據(jù)基石。
科學理想:
“打通數(shù)據(jù)通往智能的橋梁,讓ai-ready數(shù)據(jù)觸手可及?!?/p>
世界科技前沿
科研關鍵詞:
大模型、ai數(shù)據(jù)基礎設施、高性能計算
在人工智能高速發(fā)展的當下,數(shù)據(jù)和算力已成為驅(qū)動創(chuàng)新的關鍵資源。然而,如何將海量雜亂的數(shù)據(jù)轉(zhuǎn)化為大模型真正可理解、可學習的內(nèi)容,讓ai真正看懂人類世界,卻是行業(yè)面臨的核心議題。
對此,上海人工智能實驗室青年科學家何聰輝提出一個生動的比喻:“我們的工作,就像在人工智能領域搭建一座‘超級煉油廠’?!彼麑⒒ヂ?lián)網(wǎng)與人類文明中的海量原始數(shù)據(jù)比作“原油”,而ai大模型則是高性能“發(fā)動機”,“如果把充滿雜質(zhì)的原油直接倒進這樣一個精密的機器,大模型就會跑不起來,甚至壞掉?!焙温斴x解釋道。
為了將多模態(tài)的數(shù)據(jù)“原油”,提煉為ai可讀的高質(zhì)量“燃料”,何聰輝帶領團隊采用“ai自動化清洗數(shù)據(jù)”的思路,通過引入高性能計算技術,構(gòu)建了可快速處理千億級規(guī)模的數(shù)據(jù)基座,“讓大模型跑得更快、更準,也讓真正ai-ready的數(shù)據(jù)對訓模型、用模型的人觸手可及?!?/p>
基于這一強大數(shù)據(jù)基座,上海人工智能實驗室還開源了“書生”系列大模型,走通了“通專融合”的技術路徑。系列模型不僅具備通用推理與多模態(tài)理解能力,更在生命科學、物質(zhì)科學等專業(yè)領域展現(xiàn)出超越一般模型的深度認知與解題能力,真正實現(xiàn)了以高質(zhì)量數(shù)據(jù)驅(qū)動前沿創(chuàng)新。
快問快答
@上海科技
作為程序員,您如何看待“35歲”的年齡梗?
@何聰輝
雖然很多人調(diào)侃“程序員35歲失業(yè)”,但在我看來,35歲是經(jīng)驗和體力結(jié)合最好的時期。并且非常幸運的是我們正趕上ai的黃金時代,我認為我們這代人恰恰在此時迎來了施展拳腳的最大空間。
@上??萍?/p>
搭建數(shù)據(jù)基座時最大的難點是什么?您和團隊是如何解決的?
@何聰輝
最大的挑戰(zhàn)是在極短時間內(nèi)處理極其龐大且多樣的數(shù)據(jù)。
由于數(shù)據(jù)的模態(tài)千差萬別,全靠人工“清洗”很難干完,所以我們訓練了一個ai模型,用ai代替人工自動處理數(shù)據(jù),可以說是“用魔法打敗魔法”。解決單份數(shù)據(jù)后,更大的挑戰(zhàn)在于如何實現(xiàn)百億、甚至千億規(guī)模的數(shù)據(jù)高效處理。因為我原來是研究高性能計算、超算領域的,于是我就把相關方法遷移過來,把數(shù)據(jù)處理任務變成了一個高性能計算問題。
最終,我們讓訓練出來“最聰明”的模型跑在了最高效的算力架構(gòu)上。
@上??萍?/p>
在您開源的眾多大模型工具中,哪一款讓您印象深刻?為什么?
@何聰輝
在我主導的工作中,有一款開源的miner u工具,能夠把各種文檔數(shù)據(jù)轉(zhuǎn)化成ai可用的數(shù)據(jù)。
讓我特別意外的是,這個工具發(fā)布后的反響遠超我們團隊預期。僅僅一年時間,github星標數(shù)就漲到了5萬,每天用戶調(diào)用量接近千萬次,熱度甚至超過了不少國內(nèi)的模型?,F(xiàn)在像華為、字節(jié)、騰訊等很多企業(yè)都在實際應用它。這種“用腳投票”的認可,讓我覺得自己的工作真正為社會創(chuàng)造了價值,不僅是科研中做好了一個模型,特別有成就感。
@上??萍?/p>
ai發(fā)展日新月異的今天,作為相關從業(yè)者您有沒有感到詫異的部分?
@何聰輝
現(xiàn)在的ai非常智能,我們常討論“具身智能”的未來。但某種意義上我覺得現(xiàn)在人變成了“具身”,而ai則成為了“智能”。越來越多人開始習慣聽取ai的建議,并將其落實到日常決策與行動中。這意味著我們已提前進入了一種“人機共生”的狀態(tài)。這雖然讓我們的生活變得高效,但我認為也是一件需要我們謹慎對待的事。
@上??萍?/p>
在上海做科研,您有怎樣的感受?
@何聰輝
2022年底chatgpt掀起浪潮時,我覺得必須和團隊坐在一起全力投入這項變革性的事業(yè),于是從深圳來到上海,為構(gòu)建ai-ready大模型數(shù)據(jù)基礎設施奮斗。我覺得上海在開源方面的精神和我長期從事的工具、數(shù)據(jù)開源工作很像,這里海納百川的開放與立足長遠的務實風格,為我們下一代數(shù)據(jù)基礎設施的研發(fā)提供了良好的沃土。
“上??萍肌背銎?,轉(zhuǎn)載請注明來源
企業(yè)及專家觀點不代表官方立場
作者:朱文瑩
拍攝、后期:gina.z 2025澳門資料免費大全
上觀號作者:上海科技