Notice
Recent Posts
Recent Comments
Link
맥에서 오픈소스로
Transformer의 positional encoding과 NeRF의 positional encoding 본문
Transformer의 positional encoding과 NeRF의 positional encoding의 유사점과 차이점을 설명드리겠습니다.
유사점
- 위치 정보 인코딩 목적: 둘 다 모델이 위치 정보를 이해할 수 있도록 도와주는 역할을 합니다.
- 주기 함수 사용: 두 방법 모두 sin, cos와 같은 주기 함수를 활용하여 위치를 인코딩합니다.
- 고차원 표현: 저차원의 위치 정보를 고차원 공간으로 매핑하여 모델이 더 잘 학습할 수 있도록 합니다.
- 학습 가능성: 두 방법 모두 모델 훈련 과정에서 효과적으로 학습됩니다.
차이점
적용 영역
- Transformer: 순차적 데이터(텍스트, 시퀀스)의 토큰 위치를 인코딩
- NeRF: 3D 공간 좌표(x, y, z)와 시점 방향(θ, φ)을 인코딩
차원
- Transformer: 1차원 시퀀스 위치 (0, 1, 2, 3, ...)
- NeRF: 3차원 공간 좌표와 2차원 방향 (총 5차원)
인코딩 방식
- Transformer:
- PE(pos, 2i) = sin(pos/10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos/10000^(2i/d_model))
- NeRF:
- γ(p) = (sin(2^0πp), cos(2^0πp), ..., sin(2^(L-1)πp), cos(2^(L-1)πp))
주파수 스케일링
- Transformer: 지수적으로 감소하는 주파수 사용
- NeRF: 지수적으로 증가하는 주파수 사용 (더 높은 주파수로 세밀한 디테일 캡처)
목적
- Transformer: 어텐션 메커니즘에서 토큰 간 상대적 위치 관계 파악
- NeRF: 3D 공간에서 고주파 디테일과 기하학적 특성을 정확히 재현
입력 처리 방식
- Transformer: 임베딩과 더해져서(additive) 사용
- NeRF: 원본 좌표와 연결되어(concatenated) MLP에 입력
이러한 차이점들은 각각의 도메인 특성과 해결하려는 문제에 맞게 설계된 것입니다.
'딥러닝' 카테고리의 다른 글
| 히스토그램 매칭 vs 다이나믹 타임 워핑(DTW) (0) | 2025.09.17 |
|---|---|
| Original Self-Attention vs. FFT-based Self-Attention (0) | 2025.09.17 |
| FCOS_Resnet50 모델의 특징 (0) | 2025.07.02 |
| t-SNE 플롯 기술 개발의 숨겨진 이야기 (1) | 2025.05.27 |
| 메타의 Segment Anything 이야기 (0) | 2025.05.27 |