近日,新開普AI事業(yè)部研究成果《GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding》被CVPR 2026接收。該研究圍繞視頻大模型中的細(xì)粒度時(shí)序理解問題展開,提出了一種由文本問題引導(dǎo)的視覺token采樣方法,為視頻內(nèi)容理解和關(guān)鍵事件定位提供了新的技術(shù)思路。

CVPR(全稱為IEEE/CVF Conference on Computer Vision and Pattern Recognition)是計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域具有重要影響力的國際會(huì)議。CVPR官方將其定義為該領(lǐng)域的年度旗艦會(huì)議,中國計(jì)算機(jī)學(xué)會(huì)(CCF)也將其列為人工智能領(lǐng)域A類會(huì)議,具有較高學(xué)術(shù)認(rèn)可度和行業(yè)影響力。
此次論文入選CVPR 2026,體現(xiàn)了新開普在多模態(tài)智能、視頻內(nèi)容理解等方向的持續(xù)投入與技術(shù)積累,也展現(xiàn)了團(tuán)隊(duì)堅(jiān)持“前沿技術(shù)研究+產(chǎn)業(yè)應(yīng)用落地”雙輪驅(qū)動(dòng)的戰(zhàn)略成果。
論文聚焦: 視頻大模型,為什么還不夠“會(huì)看”?
當(dāng)前的多模態(tài)大模型雖具備基礎(chǔ)視頻理解能力,但在某些需要“精準(zhǔn)抓取”的任務(wù)中——比如“根據(jù)一句話,準(zhǔn)確找出這件事發(fā)生在視頻的哪一段時(shí)間”,表現(xiàn)仍不盡如人意。這類任務(wù)在學(xué)界通常被稱為Video Temporal Grounding(視頻時(shí)序定位)。
問題的關(guān)鍵在于,現(xiàn)有視頻大模型大多采用均勻采樣的方式處理視頻內(nèi)容,不論哪些片段更重要,模型都會(huì)平均分配注意力。這樣做雖然簡(jiǎn)單,但當(dāng)真正關(guān)鍵的動(dòng)作只發(fā)生在少數(shù)瞬間時(shí),模型就可能錯(cuò)過重要線索;而當(dāng)輸入中包含大量無關(guān)畫面時(shí),又容易受到干擾,影響判斷精度。如何讓模型學(xué)會(huì)“有的放矢”,聚焦真正有用的畫面?正是本次論文研究的出發(fā)點(diǎn)。

核心創(chuàng)新: GroundVTS 讓模型圍繞問題,聚焦關(guān)鍵片段
針對(duì)上述問題,新開普AI事業(yè)部提出GroundVTS架構(gòu):不再讓模型死板地均勻采樣,而是根據(jù)用戶的提問來動(dòng)態(tài)篩選視頻信息。
GroundVTS是如何做到的?
GroundVTS的核心是Visual Token Sampling(VTS)模塊。它會(huì)先評(píng)估視頻中不同視覺tokens與文本問題之間的相關(guān)性,再選擇性保留高價(jià)值信息,形成更貼合時(shí)序理解需求的非均勻采樣方式。與此同時(shí),論文還設(shè)計(jì)了三階段漸進(jìn)式優(yōu)化策略,使這種新的采樣機(jī)制,穩(wěn)定適配現(xiàn)有視頻大模型。
這不僅是為了壓縮輸入或減少計(jì)算,更重要的是讓模型學(xué)會(huì):面對(duì)一個(gè)具體問題時(shí),應(yīng)該重點(diǎn)看哪里、忽略哪里。

實(shí)驗(yàn)結(jié)果: 多項(xiàng)任務(wù)表現(xiàn)領(lǐng)先,效率與精度兼得
整體來看,GroundVTS在Charades-STA、ActivityNet-Captions、QVHighlights等主流數(shù)據(jù)集上均取得了領(lǐng)先表現(xiàn)。在時(shí)刻檢索(Moment Retrieval)和高光檢測(cè)(Highlight Detection)兩項(xiàng)關(guān)鍵任務(wù)上,超越同量級(jí)基礎(chǔ)模型(如Qwen2.5VL-7B、InternVL3.5-8B)10個(gè)點(diǎn)以上,部分指標(biāo)提升達(dá)數(shù)十點(diǎn);相比現(xiàn)有代表性方法,最高實(shí)現(xiàn) mIoU提升7.7 個(gè)點(diǎn),mAP提升 12.0 個(gè)點(diǎn),充分驗(yàn)證了其在細(xì)粒度視頻內(nèi)容理解上的有效性和競(jìng)爭(zhēng)力。

除了更高的精度,GroundVTS 在更低的視覺 token 預(yù)算下依然保持較強(qiáng)性能與穩(wěn)定性。在僅使用一半視覺token預(yù)算的情況下,GroundVTS 的表現(xiàn)依然超過了均勻采樣基線在滿預(yù)算下的結(jié)果;即使在更激進(jìn)的壓縮設(shè)置下,優(yōu)勢(shì)仍然顯著。這表明GroundVTS不僅提升了定位準(zhǔn)確率,也大幅增強(qiáng)了視頻信息的利用效率。這意味著:看得更準(zhǔn),同時(shí)看得更精。

落地展望: 賦能智慧校園與行業(yè)應(yīng)用
新開普始終致力于前沿AI技術(shù)與真實(shí)場(chǎng)景需求的深度融合,GroundVTS所代表的細(xì)粒度視頻理解能力,在智慧校園及更多行業(yè)應(yīng)用場(chǎng)景中具有廣闊應(yīng)用前景,讓技術(shù)真正看得見、用得上:
校園安全場(chǎng)景:快速定位監(jiān)控視頻中的特定異常事件,提升事件檢索與應(yīng)急響應(yīng)效率。
教學(xué)資源檢索:幫助師生從海量教學(xué)視頻中,精準(zhǔn)定位知識(shí)點(diǎn)講解片段。
實(shí)訓(xùn)教學(xué)場(chǎng)景:在技能實(shí)訓(xùn)中,精準(zhǔn)定位操作錯(cuò)誤時(shí)刻、提取關(guān)鍵操作片段,助力實(shí)訓(xùn)過程復(fù)盤與評(píng)估,讓教學(xué)更具針對(duì)性,提升學(xué)習(xí)效果。
此次研究成果入選CVPR 2026,既是新開普AI事業(yè)部在多模態(tài)視頻理解方向上的研究積累,也為相關(guān)能力在教育及更多行業(yè)場(chǎng)景中的規(guī)模化落地進(jìn)一步夯實(shí)了技術(shù)基礎(chǔ)。
從頂會(huì)論文成果發(fā)表,到核心技術(shù)突破創(chuàng)新,再到千行百業(yè)場(chǎng)景落地探索,新開普AI事業(yè)部始終聚焦大模型、智能體、多模態(tài)理解與生成等關(guān)鍵方向持續(xù)深化探索,加速前沿技術(shù)與行業(yè)應(yīng)用場(chǎng)景的深度耦合,讓AI能力更懂場(chǎng)景,切實(shí)服務(wù)于教育數(shù)字化與行業(yè)智能化的升級(jí)進(jìn)程。
歡迎持續(xù)關(guān)注新開普AI事業(yè)部的最新進(jìn)展,與我們共同見證技術(shù)賦能未來的每一步。
關(guān)于新開普AI事業(yè)部: 作為公司推進(jìn)AI技術(shù)創(chuàng)新、產(chǎn)品建設(shè)與場(chǎng)景落地的核心引擎,新開普AI事業(yè)部緊密圍繞智慧校園與行業(yè)數(shù)字化核心需求,持續(xù)推動(dòng)前沿技術(shù)與業(yè)務(wù)場(chǎng)景的融合發(fā)展。
一方面,聚焦多模態(tài)大模型、自然語言處理、計(jì)算機(jī)視覺、智能體協(xié)同等關(guān)鍵技術(shù)方向,筑牢核心技術(shù)底座;另一方面,面向校園管理、服務(wù)與教學(xué)等核心場(chǎng)景,打造校園AI助手、AI 中臺(tái)、數(shù)據(jù)智能體、智能教學(xué)裝備與智能終端等產(chǎn)品建設(shè)和落地應(yīng)用,推動(dòng)AI能力從技術(shù)研究向可用、可交付、可持續(xù)運(yùn)營的產(chǎn)品體系全面邁進(jìn)。