맥에서 오픈소스로

Transformer의 positional encoding과 NeRF의 positional encoding 본문

딥러닝

Transformer의 positional encoding과 NeRF의 positional encoding

제갈티 2025. 9. 17. 13:11

Transformer의 positional encoding과 NeRF의 positional encoding의 유사점과 차이점을 설명드리겠습니다.

유사점

  1. 위치 정보 인코딩 목적: 둘 다 모델이 위치 정보를 이해할 수 있도록 도와주는 역할을 합니다.
  2. 주기 함수 사용: 두 방법 모두 sin, cos와 같은 주기 함수를 활용하여 위치를 인코딩합니다.
  3. 고차원 표현: 저차원의 위치 정보를 고차원 공간으로 매핑하여 모델이 더 잘 학습할 수 있도록 합니다.
  4. 학습 가능성: 두 방법 모두 모델 훈련 과정에서 효과적으로 학습됩니다.

차이점

적용 영역

  • Transformer: 순차적 데이터(텍스트, 시퀀스)의 토큰 위치를 인코딩
  • NeRF: 3D 공간 좌표(x, y, z)와 시점 방향(θ, φ)을 인코딩

차원

  • Transformer: 1차원 시퀀스 위치 (0, 1, 2, 3, ...)
  • NeRF: 3차원 공간 좌표와 2차원 방향 (총 5차원)

인코딩 방식

  • Transformer:
  • PE(pos, 2i) = sin(pos/10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos/10000^(2i/d_model))
  • NeRF:
  • γ(p) = (sin(2^0πp), cos(2^0πp), ..., sin(2^(L-1)πp), cos(2^(L-1)πp))

주파수 스케일링

  • Transformer: 지수적으로 감소하는 주파수 사용
  • NeRF: 지수적으로 증가하는 주파수 사용 (더 높은 주파수로 세밀한 디테일 캡처)

목적

  • Transformer: 어텐션 메커니즘에서 토큰 간 상대적 위치 관계 파악
  • NeRF: 3D 공간에서 고주파 디테일과 기하학적 특성을 정확히 재현

입력 처리 방식

  • Transformer: 임베딩과 더해져서(additive) 사용
  • NeRF: 원본 좌표와 연결되어(concatenated) MLP에 입력

이러한 차이점들은 각각의 도메인 특성과 해결하려는 문제에 맞게 설계된 것입니다.