카테고리 없음 / / 2026. 2. 6. 23:35

[문현서] Wide Residual Networks

Wide Residual Networks (2016)

https://arxiv.org/pdf/1605.07146

 

[요약]

- Deep residual network 수천 층으로 scale 성능 개선 가능하지만 개선하려는 정확도 퍼센트   배의 층이 필요 -> 훈련 속도 매우 느려짐

- Residual network 깊이를 줄이고 너비를 넓혀 성능 개선 (Wide Residual Networks(WRNs)) – sota 달성

Ex) 간단한 16 WRN 정확도와 효율성 측면에서 과거 모든 deep ResNet 뛰어 넘음

 

 

[Introduction]

- increase in the number of layers in CNNs -> improvements in image recognition tasks

- but training deep networks has several difficulties: exploding/vanishing gradients and degradation

- up to this point, the study of residual networks focused mainly on the order of activations inside a ResNet block and the depth of residual blocks

 -> Q. how do aspects other than the order of activations affect performance?

 

1. Width vs depth in residual networks

-깊은 학습 가능하게 하는 identity shortcut 동시에 deep ResNet 약점이   있다는 점에 초점 (shortcut 때문에gradient residual branch 거치지 않아 일부 블록이 충분히 학습되지 않는 문제 발생 가능)

2. Use of dropout in ResNet blocks

- 통상적으로dropout (레이어 출력값 일부를 0으로 만들어 모델이 특정 feature 과도하게 의존하는  방지 - > 학습 안정화하는 테크닉) 대신 batch normalization (레이어 출력값 분포 정규화 - > 학습 안정화) 사용 (정확도  좋았기 때문)

- WRN에서는 wider -> more parameters -> 과적합 위험 증가

-> WRN + dropout 제안

 , 이전 연구 성과 좋지 않았던  identity shortcut dropout 넣는  아니라 residual branch 안에 넣자 : figure 1 (d)

 

 

[Wide residual networks]

 

논문에 나오는ResNet 블록 종류

(a) basic: 3x3 convolution   (k=1)

(b) bottleneck: 가운데를  좁게 만들어서 (채널  줄여서) 계산량 감축

(c) basic-wide: 형태 basic 같지만 깊게(deep) 가는 대신 가로로 넓게(wide) 키움

(d) wide-dropout

 

WRN 구조

- 기존 구조의 순서인 Conv-BN-ReLU가 아닌 BN-ReLU-Conv로 순서를 변 (better results and faster training)

- 실험에서는 conv1 크기 고정, conv2,3,4 widening factor k 조절하여 residual block representational power 측정

 

[Experimental results]

Image classification datasets: CIFAR, SVHN, ImageNet

1) Type of convolutions in a block: 3x3 conv

 

2) Number of convolutions per block: 2

3) Width of residual blocks: 

- k 늘릴수록 에러 감소 but 항상 그렇지는 않음

결과

1. ResNet너비를 넓히는 것은 깊이에 상관없이 퍼포먼스 개선

2. 깊이와 너비를 모두 증가시키면, 파라미터 수가 너무 많아지거나 더 강한 regularization이 필요해지기 전까지 좋은 결과를 보임

3. WRN은 얇은 네트워크보다 두 배 이상의 매개 변수를 사용하여 성공적으로 학습 가능

4. residual block dropout을 넣었을 때 CIFAR, SVHN에서 테스트 오류가 줄고 과적합 완화되었음

베스트 퍼포먼스 결과 정리

[결론]

Residual networks do not need to be extremely deep. Proper widening yields better accuracy–efficiency trade-off.

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유