【遥感】武汉大学视频分割成果登顶CVPR/ICCV挑战赛双冠军

发布时间：2023-10-26 阅读：

近日，武汉大学遥感信息工程学院季顺平教授团队联合快手团队获得2023年CVPR挑战赛“视频语义全景分割（Wild Challenge VPS Track）”和ICCV挑战赛“视频实例分割（VIS Track）”赛道双冠军。该成果标志着团队在视频分割领域达到了世界领先水平。同时论文“DVIS: Decoupled Video Instance Segmentation Framework”被ICCV接收。第一作者为武汉大学2023级博士研究生张韬。CVPR和ICCV均是计算机视觉与模式识别领域最顶尖国际盛会，随会议一同发布的挑战赛吸引了全球多个团队参与。武汉大学此前在ICCV或CVPR挑战赛上获得过3个单项冠军，但同一成果同时获得当年ICCV、CVPR双冠军，尚属于首次。

文本描述已自动生成

季顺平教授代表团队在ICCV会议上发言，介绍了DVIS的创新性思路；张贴阶段，参会团队回答了相关领域学者的提问。

图形用户界面, 文本描述已自动生成一群人站在一起合影描述已自动生成

视频是图像在时域上的延伸。视频实例分割技术是图像实例分割的拓展。下图第一列代表实例分割，每只鹅与熊猫代表不同实例。第二列代表全景实例分割，除了追踪和精细分割可数目标，还需要分割图像上剩余的像素（天空、雪地等不可数目标）。

demo_1 demo_0

demo_6 demo_7

团队通过分析现有方法存在的问题，即实例分割与目标追踪相互纠缠导致性能不佳的缺点，基于Transformer框架提出了DVIS（Decoupled Video Instance Segmentation）方法，设计了实例分割（Segmenter）、目标追踪（Tacker）和全局精化（Refiner）三个相对独立的流程。

图示描述已自动生成

自从今年6月获得CVPR赛道冠军以来，为了进一步提升效果，对DVIS进行了进一步改进。第一，引入视觉大模型，实现更加先进的分割器。采用在DINO v2数据集上预训练的VIT-L 模型作为骨干网络，引入并简化适配器（VIT-Adapter），实现了骨干特征的多尺度表达并减少了对GPU显存的需求。第二，引入加噪训练方法，人为提升难度，以加强目标追踪模块在困难条件下的稳健性。

Kim_20230929_163002

结合DVIS自身的优势基础和以上改进，在9月截止的ICCV挑战赛中，团队再次获得冠军并大幅领先第二名（第一名与第二名的差距等于第二名与第十名的差距）。

图形用户界面, 应用程序, 表格描述已自动生成

AI技术特别是视觉大模型发展日新月异。但DVIS能够长期在多个视频实例分割数据集公开榜单上占据榜首。特别地，在当前权威且最具挑战性的OVIS（Occluded video instance segmentation）数据集上，从今年二月份提交以来占据榜首至今。

表格描述已自动生成

OVIS结果（codalab.lisn.upsaclay.fr/competitions/4763#results）

代码已经在Github开源。

通讯员：季顺平

审稿人：乐鹏

旧版

信息

【遥感】武汉大学视频分割成果登顶CVPR/ICCV挑战赛双冠军

友情链接