맥에서 오픈소스로
병렬 처리가 가능한 완전히 새로운 구조, 트랜스포머 본문
트랜스포머 모델의 탄생은 구글 브레인 팀의 작은 회의실에서 시작되었습니다. 2017년 초, 기존의 순환 신경망(RNN)과 장단기 메모리(LSTM)의 한계에 좌절하던 젊은 연구원들이 모여 있었죠.
아쉬시 바스와니(Ashish Vaswani)는 커피잔을 내려놓으며 동료들에게 말했습니다. "우리가 순차적 처리에서 벗어날 수 없을까? 병렬 처리가 가능한 완전히 새로운 구조를 만들어보자."
당시 구글의 다른 팀들은 이들의 아이디어를 회의적으로 바라봤습니다. "어텐션만으로? 그게 가능하겠어?" 하는 비아냥도 들렸죠. 하지만 8명의 연구원들은 포기하지 않았습니다.
수개월 동안 그들은 밤을 새워가며 코드를 작성하고 실험을 반복했습니다. 특히 멀티헤드 어텐션 메커니즘을 구현하는 과정에서는 수없이 많은 시행착오가 있었죠. 노암 샤지어(Noam Shazeer)는 새벽 3시에 갑자기 위치 인코딩의 해법을 떠올렸고, 잠들어 있던 팀원들에게 문자를 보냈습니다. "찾았어! 사인과 코사인 함수를 써보자!"
첫 번째 실험 결과는 충격적이었습니다. 기존 모델보다 훈련 시간은 짧았는데 성능은 월등했죠. 하지만 논문 투고 과정은 순탄치 않았습니다. NIPS(현 NeurIPS) 학회의 리뷰어들은 처음에는 이 혁신적인 아이디어를 이해하지 못했습니다. "RNN 없이 어떻게 시퀀스를 처리한다는 거죠?"라는 질문이 쏟아졌습니다.
팀은 좌절하지 않고 더 명확한 설명과 실험 결과를 보충했습니다. 특히 "Attention is All You Need"라는 도발적인 제목은 야콥 우스코라이트(Jakob Uszkoreit)의 아이디어였는데, 처음에는 너무 과감하다는 의견도 있었습니다.
2017년 6월, 마침내 논문이 공개되었을 때 AI 커뮤니티는 폭발적으로 반응했습니다. 불과 몇 달 만에 수천 번의 인용이 이루어졌고, 전 세계 연구자들이 트랜스포머를 활용한 새로운 모델들을 만들어내기 시작했습니다.
이후 BERT, GPT, T5 등 수많은 파생 모델들이 등장했고, 트랜스포머는 자연어 처리의 표준이 되었습니다. 8명의 연구원이 시작한 작은 프로젝트가 AI 역사를 바꾼 것입니다.
재미있는 일화로, 팀원들은 성공을 축하하며 "어텐션이 전부다(Attention is All You Need)"라고 적힌 티셔츠를 만들어 입었다고 합니다. 그리고 몇 년 후, 이 문구는 AI 연구자들 사이에서 전설적인 밈이 되었죠.