SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation
{Segmentation, Multi Scale Conv Attention}
Paper: https://arxiv.org/abs/2209.08575
Code: https://github.com/Visual-Attention-Network/VAN-Classification
{Segmentation, Multi Scale Conv Attention}
Paper: https://arxiv.org/abs/2209.08575
Code: https://github.com/Visual-Attention-Network/VAN-Classification
1) Motivation, Objectives and Related Works:
Motivation:
Có nhiều paper đã áp dụng Multi Scale Context vào phần Decoder của model Segmentation như SPP, ASPP, Lawin,...
Objectives:
nhưng SegNeXt áp dụng luôn vào backbone thông qua MSCA.
Related Works:
Contribution:
2) Methodology:
Method 1:
MSCA bao gồm 3 phần: DWConv để lấy thông tin cho vùng nhỏ, Multi Scale Strip Feature để tận dụng đồng thời Multi Scale Context và Strip Feature thông qua nhiều nhánh Depthwise Strip Conv (DW-SConv), và đương nhiên là không thể thiếu PWConv ($1 \times 1 Conv) đóng vai trò như một Channel Attention (Hình 11).
Ở đây, MSCA vẫn tận dụng Large Kernel, nhưng không giống như LKA, nó không sử dụng K×K DWConv mà tách thành 1×K DWConv và K×1 DWConv.
Đây gọi là Depthwise Strip Conv vì:
Strip Conv nhẹ
Bắt được các object có dạng strip (mảnh, dài).
Ý tưởng của việc đến từ paper "Strip Pooling: Rethinking Spatial Pooling for Scene Parsing"
3) Experimental Results:
Experimental Results:
Ablations:
n2 n0
θ