- Receptive Field : feature의 활성화에 영향을 미치는 input image의 영역. 즉, 출력 레이어의 뉴런 하나에 영향을 미치는 입력 뉴런들의 공간 크기이다. (외부 자극이 전체에 영향을 끼치는 것이 아니라 특정 영역에만 영향을 준다는 의미를 갖는다.)
- Feature Map : sliding window 방식으로 입력 맵의 서로 다른 위치에 동일한 feature detector를 적용하여 생성한 feature들의 집합이다. (convolution). 즉, 필터를 입력받은 데이터에 sliding window 방식으로 적용한 뒤, 얻어낸 결과를 feature map이라고 한다.
- Fully connected layer as Feature Volume : Fully connected layers는 분류 작업 수행을 위해 ConvNet의 마지막에 붙는 레이어로서 k개의 hidden nodes를 갖는다. (1\*1\*k feature volume을 갖는다.) 이 feature volume은 각 피쳐 맵 당 하나의 피쳐를 가지고, 해당 receptive field는 전체 이미지를 포함한다. fc 계층의 가중치 행렬인 W는 CNN 커널로 변환할 수 있다. w\*h\*k 커널과 w\*h\*d의 피쳐 볼륨을 갖는 CNN은 1\*1\*k 피쳐 볼륨을 생성해낸다. 1\*1\*k 필터 커널을 1\*1\*d feature volume에 통합하면 1\*1\*k feature volumn이 생성된다. fc 레이어를 컨볼루션 레이어로 바꾸면 임이의 크기의 이미지에 ConvNet을 적용할 수 있다.
- Deconvolution : convolution의 반대 과정이다. 쉽게 말하자면 f*g = h (f: filter, g: feature map(input of layer), h: output)일 때, f,h로부터 g를 구하는 과정을 deconvolution이라고 한다. 예를 들어 특정 레이어에서 어떤 값을 역추적했더니 "눈"이 나왔다는 것은 바로 사람의 얼굴에서 눈이 이 필터를 잘 활성화시킨다는 것이고, 이 필터는 눈의 특징을 잡아내는 역할을 한다는 것을 의미한다. 우리가 deconv를 통해 피쳐맵을 역추적하면 특정 필터가 처음의 input image에서부터 담당하는 부분을 시각적으로 알 수 있다.
- End to End Learning : 입력에서 출력까지 전체 네트워크를 이루는 부분적인 네트워크 없이 한 번에 처리한다는 것을 의미한다.