信息

首页  >  院系风采  >  信息  >  正文

【遥感】武汉大学视频分割成果登顶CVPR/ICCV挑战赛双冠军

发布时间:2023-10-26 16:40   点击数:



近日,武汉大学遥感信息工程学院季顺平教授团队联合快手团队获得2023CVPR挑战赛“视频语义全景分割(Wild Challenge VPS Track)”和ICCV挑战赛“视频实例分割(VIS Track)”赛道双冠军。该成果标志着团队在视频分割领域达到了世界领先水平。同时论文“DVIS: Decoupled Video Instance Segmentation Framework”被ICCV接收。第一作者为武汉大学2023级博士研究生张韬。CVPRICCV均是计算机视觉与模式识别领域最顶尖国际盛会,随会议一同发布的挑战赛吸引了全球多个团队参与。武汉大学此前在ICCVCVPR挑战赛上获得过3个单项冠军,但同一成果同时获得当年ICCVCVPR双冠军,尚属于首次。

文本描述已自动生成 文本描述已自动生成

顺平教授代表团队在ICCV会议上发言,介绍了DVIS创新性思路;张贴阶段,参会团队回答了相关领域学者的提问。

图形用户界面, 文本描述已自动生成 一群人站在一起合影描述已自动生成

视频是图像在时域上的延伸。视频实例分割技术是图像实例分割的拓展。下图第一列代表实例分割,每只鹅与熊猫代表不同实例。第二列代表全景实例分割,除了追踪和精细分割可数目标,还需要分割图像上剩余的像素(天空、雪地等不可数目标)。

demo_1 demo_0

demo_6 demo_7

 

团队通过分析现有方法存在的问题,即实例分割与目标追踪相互纠缠导致性能不佳的缺点,基于Transformer框架提出了DVISDecoupled Video Instance Segmentation)方法,设计了实例分割(Segmenter)、目标追踪(Tacker)和全局精化(Refiner)三个相对独立的流程。

图示描述已自动生成

自从今年6月获得CVPR赛道冠军以来,为了进一步提升效果,对DVIS进行了进一步改进。第一,引入视觉大模型,实现更加先进的分割器。采用在DINO v2数据集上预训练的VIT-L 模型作为骨干网络,引入并简化适配器(VIT-Adapter),实现了骨干特征的多尺度表达并减少了对GPU显存的需求。第二,引入加噪训练方法,人为提升难度,以加强目标追踪模块在困难条件下的稳健性。

Kim_20230929_163002

结合DVIS自身的优势基础和以上改进,在9月截止的ICCV挑战赛中,团队再次获得冠军并大幅领先第二名(第一名与第二名的差距等于第二名与第十名的差距)。

图形用户界面, 应用程序, 表格描述已自动生成

AI技术特别是视觉大模型发展日新月异。但DVIS能够长期在多个视频实例分割数据集公开榜单上占据榜首。特别地,在当前权威且最具挑战性的OVISOccluded video instance segmentation数据集上,从今年二月份提交以来占据榜首至今。

表格描述已自动生成

OVIS结果(codalab.lisn.upsaclay.fr/competitions/4763#results

 

代码已经在Github开源。

通讯员:季顺平

审稿人:乐鹏