0已點贊

北京大學(xué)王選計算機研究所彭宇新團隊在細(xì)粒度多模態(tài)大模型上取得系列進展

研發(fā)快訊 2026年02月10日 09:28:07來源：北京大學(xué) 16830

摘要針對現(xiàn)有大模型無法準(zhǔn)確區(qū)分細(xì)粒度類別的問題，北京大學(xué)團隊研發(fā)并開源了首個細(xì)粒度多模態(tài)大模型Finedefics。

　　【儀表網(wǎng) 研發(fā)快訊】多模態(tài)大模型在通用任務(wù)上表現(xiàn)出色，但缺乏細(xì)粒度感知能力，如何做到又廣(開域泛化能力)又深(細(xì)粒度感知能力)，是推動大模型從聊天助手到自動駕駛、具身智能、醫(yī)療影像、工業(yè)制造等實際應(yīng)用中急需解決的關(guān)鍵問題。針對上述問題，北京大學(xué)王選計算機研究所彭宇新教授團隊近期取得了一系列重要進展，包括研發(fā)并開源了首個細(xì)粒度多模態(tài)大模型Finedefics、發(fā)表首篇細(xì)粒度多模態(tài)大模型綜述論文等。相關(guān)成果發(fā)表于IEEE TPAMI、CVPR、ICLR等人工智能領(lǐng)域國際頂級期刊和會議，包括CVPR的口頭報告論文(接收率3.3%)和亮點論文(接收率13.5%)。

圖1. 細(xì)粒度多模態(tài)大模型Finedefics

　　針對現(xiàn)有大模型無法準(zhǔn)確區(qū)分細(xì)粒度類別的問題，團隊研發(fā)并開源了首個細(xì)粒度多模態(tài)大模型Finedefics，首先通過與大模型的多輪交互構(gòu)建細(xì)粒度子類別的屬性知識，然后通過判別-生成統(tǒng)一的指令微調(diào)將屬性知識分別與細(xì)粒度子類別的圖像與文本對齊，實現(xiàn)數(shù)據(jù)-知識協(xié)同訓(xùn)練，提高了多模態(tài)大模型的細(xì)粒度圖像分類能力，準(zhǔn)確率達到76.84%，相比阿里的通義千問大模型(QwenVL-Chat)提高了9.43%，相比HuggingFace的Idefics2大模型提高了10.89%。本工作發(fā)表于人工智能領(lǐng)域國際頂級會議ICLR 2025。

圖2. 細(xì)粒度視覺推理算法DyFo

　　針對現(xiàn)有大模型無法準(zhǔn)確識別圖像中微小目標(biāo)的問題，團隊提出了細(xì)粒度視覺推理算法DyFo，通過視覺專家模型與多模態(tài)大模型的協(xié)同，在無需額外訓(xùn)練的前提下，模擬人類視覺搜索行為逐步聚焦圖像關(guān)鍵區(qū)域，提高了多模態(tài)大模型的細(xì)粒度視覺識別能力，準(zhǔn)確率達到81.15%，相比阿里的通義千問大模型(Qwen2-VL)提高了8.90%。本工作發(fā)表于計算機視覺領(lǐng)域國際頂級會議CVPR 2025，入選大會亮點論文(接收率13.5%)。

圖3. 以人為中心的細(xì)粒度人體動作質(zhì)量評估方法Uni-FineParser

　　針對運動視頻中人體動作難以分析的問題，團隊提出了以人為中心的細(xì)粒度人體動作質(zhì)量評估方法Uni-FineParser，通過聚焦前景目標(biāo)動作區(qū)域，提取以人為中心的動作表征，然后通過細(xì)粒度對比回歸將動作過程分解為連續(xù)的動作步驟，量化每個動作步驟的質(zhì)量，綜合各步驟質(zhì)量差異預(yù)測最終動作質(zhì)量得分，動作得分的斯皮爾曼相關(guān)系數(shù)達到95.01%。本工作發(fā)表于人工智能領(lǐng)域國際頂級期刊IEEE TPAMI(影響因子18.6)。

圖4. 細(xì)粒度感知定義

　　團隊根據(jù)在細(xì)粒度分析和多模態(tài)大模型領(lǐng)域的技術(shù)積累與前沿探索，發(fā)表了首篇細(xì)粒度多模態(tài)大模型綜述論文，剖析了當(dāng)前多模態(tài)大模型的三大挑戰(zhàn)：模型架構(gòu)在細(xì)粒度特征建模上的不足；高質(zhì)量細(xì)粒度標(biāo)注數(shù)據(jù)稀缺；細(xì)粒度感知與計算效率之間的矛盾。論文從類別、空間、時間3個維度定義了細(xì)粒度感知，系統(tǒng)闡述了細(xì)粒度多模態(tài)大模型的最新研究進展，并深入探討了精度-泛化-效率權(quán)衡、知識增強策略、理解與生成統(tǒng)一、大規(guī)模評測基準(zhǔn)、細(xì)粒度多模態(tài)推理等未來發(fā)展方向。本工作發(fā)表于CJE 2026。

　　除上述代表論文外，團隊近期還取得了如下主要研究成果：團隊近期的4篇論文發(fā)表于人工智能領(lǐng)域國際頂級期刊IEEE TPAMI，一篇論文入選CVPR大會口頭報告(接收率3.3%)，3篇論文入選CVPR大會亮點論文(接收率11.8%)，兩篇論文入選2025年ESI高被引論文；構(gòu)建并開源了兩個細(xì)粒度人體運動分析數(shù)據(jù)集和評測基準(zhǔn)FineDiving-HM和FineSports，已被斯坦福大學(xué)、英偉達等60多個研究機構(gòu)使用，團隊還研發(fā)了首個在國產(chǎn)昇騰處理器上完成訓(xùn)練的生物領(lǐng)域細(xì)粒度多模態(tài)大模型，并發(fā)布到開源社區(qū)；團隊研發(fā)了端側(cè)大模型輕量化、美學(xué)理解、大模型強化學(xué)習(xí)加速、電商廣告海報生成、電商短視頻生成、自動駕駛障礙物感知等系統(tǒng)，應(yīng)用于華為、快手、阿里、騰訊、美團、蔚來、中國電信、中國鐵塔、中國航天科工三院等12家頭部企業(yè)；參加CVPR 2025第一視角視頻檢測競賽、CVPR 2025多模態(tài)視覺問答競賽、ACM MM 2025視頻生成競賽，均獲第一名；彭宇新獲2025年青年科學(xué)基金項目A類(原國家杰青)延續(xù)資助(當(dāng)年資助期滿的杰青項目中不超過20%獲延續(xù)資助)，入選2026年度IEEE Fellow、2025年度CCF會士，當(dāng)選中國圖象圖形學(xué)學(xué)會第九屆理事會副理事長，連續(xù)5年入選愛思唯爾“中國高被引學(xué)者”，主持2025年國家自然科學(xué)基金重點項目等。

我要評論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個字符)

表情

所有評論僅代表網(wǎng)友意見，與本站立場無關(guān)。

儀表網(wǎng)首頁資訊首頁

延伸閱讀

版權(quán)與免責(zé)聲明

凡本網(wǎng)注明"來源：儀表網(wǎng)"的所有作品，版權(quán)均屬于儀表網(wǎng)，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：儀表網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時，必須保留本網(wǎng)注明的作品來源，并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。
合作、投稿、轉(zhuǎn)載授權(quán)等相關(guān)事宜，請聯(lián)系本網(wǎng)。聯(lián)系電話：0571-87759945，QQ：1103027433。