[CV] WideResNet

2022. 5. 6. 16:24

일반적인 CNN은 성능을 높이기 위해 레이어의 깊이를 늘리는데에 집중해왔다. 하지만 wideresnet은 깊이보다는 넓이를 늘여보려는 여러가지 실험으로 모델을 제시했다.

1. Width vs depth in residual networks

깊은 신경망이 갖는 표현력을 얕은 신경망이 갖기 위해서는 넓은 신경망을 구성해야한다. 그만큼 paras수도 증가하게 e된다.

일반 resnet은 깊은 신경망을 구축하기위해서 conv필터를 최소화하여 얇은 res block을 만들었으며 bottleneck을 이용해 더욱 얇게 만들었다.

resblock은 신경망을 깊게 만들수 있는 장점을 가졌지만 역시나 단점을 가지고있었다.

gradient flow 과정 중에 res block 으로 gradient 를 반드시 전달하지 않아도 되는 구조라 학습이 잘 안될 수 있다.
따라서 일부 block 만이 유용한 정보들을 학습하게 된다.
결국 대부분의 block 이 정보를 가지고 있지 못하거나 많은 block 들에 아주 적은 정보만 담긴채 공유되게 된다.