近日,武汉大学遥感信息工程学院季顺平教授团队联合快手团队获得2023年CVPR挑战赛“视频语义全景分割(Wild Challenge VPS Track)”和ICCV挑战赛“视频实例分割(VIS Track)”赛道双冠军。该成果标志着团队在视频分割领域达到了世界领先水平。同时论文“DVIS: Decoupled Video Instance Segmentation Framework”被ICCV接收。第一作者为武汉大学2023级博士研究生张韬。CVPR和ICCV均是计算机视觉与模式识别领域最顶尖国际盛会,随会议一同发布的挑战赛吸引了全球多个团队参与。武汉大学此前在ICCV或CVPR挑战赛上获得过3个单项冠军,但同一成果同时获得当年ICCV、CVPR双冠军,尚属于首次。
季顺平教授代表团队在ICCV会议上发言,介绍了DVIS的创新性思路;张贴阶段,参会团队回答了相关领域学者的提问。
视频是图像在时域上的延伸。视频实例分割技术是图像实例分割的拓展。下图第一列代表实例分割,每只鹅与熊猫代表不同实例。第二列代表全景实例分割,除了追踪和精细分割可数目标,还需要分割图像上剩余的像素(天空、雪地等不可数目标)。
团队通过分析现有方法存在的问题,即实例分割与目标追踪相互纠缠导致性能不佳的缺点,基于Transformer框架提出了DVIS(Decoupled Video Instance Segmentation)方法,设计了实例分割(Segmenter)、目标追踪(Tacker)和全局精化(Refiner)三个相对独立的流程。
自从今年6月获得CVPR赛道冠军以来,为了进一步提升效果,对DVIS进行了进一步改进。第一,引入视觉大模型,实现更加先进的分割器。采用在DINO v2数据集上预训练的VIT-L 模型作为骨干网络,引入并简化适配器(VIT-Adapter),实现了骨干特征的多尺度表达并减少了对GPU显存的需求。第二,引入加噪训练方法,人为提升难度,以加强目标追踪模块在困难条件下的稳健性。
结合DVIS自身的优势基础和以上改进,在9月截止的ICCV挑战赛中,团队再次获得冠军并大幅领先第二名(第一名与第二名的差距等于第二名与第十名的差距)。
AI技术特别是视觉大模型发展日新月异。但DVIS能够长期在多个视频实例分割数据集公开榜单上占据榜首。特别地,在当前权威且最具挑战性的OVIS(Occluded video instance segmentation)数据集上,从今年二月份提交以来占据榜首至今。
OVIS结果(codalab.lisn.upsaclay.fr/competitions/4763#results)
代码已经在Github开源。
通讯员:季顺平
审稿人:乐鹏