맥에서 오픈소스로

CNN(합성곱 신경망) 개발 스토리 본문

딥러닝

CNN(합성곱 신경망) 개발 스토리

제갈티 2025. 5. 27. 22:36

 

1980년대, 프랑스 우체국 연구소의 한 구석에서 한 젊은 연구원이 홀로 밤을 지새우고 있었습니다. 얀 르쿤(Yann LeCun)은 손으로 쓴 우편번호를 자동으로 인식하는 시스템을 만들기 위해 고군분투하고 있었죠.

"이건 불가능해..." 동료들은 고개를 저었습니다. 당시 컴퓨터는 단순한 패턴조차 제대로 인식하지 못했으니까요. 하지만 르쿤은 고양이의 시각 피질을 연구한 휴벨과 비젤의 1959년 논문에서 영감을 받았습니다. 고양이의 뇌가 시각 정보를 계층적으로 처리한다는 발견이었죠.

1989년, 드디어 LeNet-1이 탄생했습니다. 하지만 학계의 반응은 차가웠습니다. "이론적 근거가 부족하다", "왜 이게 작동하는지 설명할 수 없다"는 비판이 쏟아졌죠. 심지어 한 저명한 교수는 "이건 과학이 아니라 마법이다"라고 조롱했습니다.

그러나 르쿤은 포기하지 않았습니다. 1998년, LeNet-5를 완성했고, 이는 실제로 미국 우체국에서 수표 인식에 사용되기 시작했습니다. 하루에 수백만 장의 수표를 처리하며 수십억 달러를 절약했죠.

하지만 진짜 드라마는 2000년대에 시작됩니다. SVM(서포트 벡터 머신)이 등장하면서 CNN은 구시대의 유물로 취급받았습니다. 연구 자금은 끊겼고, 학회에서는 CNN 논문을 거부했습니다. 르쿤과 그의 동료들은 '딥러닝의 겨울'이라 불리는 암흑기를 견뎌야 했죠.

2012년, 토론토 대학의 대학원생 알렉스 크리제브스키는 지도교수 제프리 힌튼의 격려 속에서 AlexNet을 개발했습니다. ImageNet 대회 참가를 두고 연구실 내부에서도 의견이 갈렸습니다. "GPU 두 개로 일주일 내내 돌려야 해. 전기세만 수천 달러야!"

대회 당일, 결과가 발표되자 회장은 술렁였습니다. AlexNet이 2위와 무려 10% 이상의 격차로 우승한 것입니다. 심사위원들은 처음에 오류가 있다고 생각했죠. 하지만 이는 시작에 불과했습니다.

2014년, 옥스퍼드의 VGGNet 팀은 더 깊은 네트워크를 만들기 위해 도전했습니다. "19층? 미쳤어!" 사람들은 비웃었습니다. 당시에는 기울기 소실 문제로 깊은 네트워크는 학습이 불가능하다고 여겨졌으니까요.

같은 해, 구글의 GoogLeNet 팀은 다른 접근을 택했습니다. "Inception 모듈"이라는 혁신적인 구조를 도입했죠. 개발자 크리스티안 세게디는 영화 '인셉션'을 보고 "꿈 속의 꿈처럼, 네트워크 속의 네트워크를 만들면 어떨까?"라는 아이디어를 떠올렸다고 합니다.

2015년, 마이크로소프트 아시아 연구소의 허 카이밍은 동료들과 함께 ResNet을 개발했습니다. 152층이라는 전례 없는 깊이였죠. "잔차 연결(Residual Connection)"이라는 단순하지만 혁명적인 아이디어로 깊은 네트워크의 학습 문제를 해결했습니다.

이 아이디어는 허 카이밍이 실험 중 우연히 발견한 것이었습니다. "그래디언트가 사라지는 게 문제라면, 지름길을 만들어주면 되지 않을까?" 처음에는 팀 내에서도 "이게 왜 작동하는지 이해가 안 된다"는 반응이었지만, 실험 결과는 놀라웠습니다.

오늘날 CNN은 자율주행차, 의료 진단, 얼굴 인식 등 우리 삶의 모든 영역에 스며들었습니다. 한때 "마법"이라고 조롱받던 기술이 현실을 바꾸고 있는 것이죠.

르쿤은 2018년 튜링상 수상 연설에서 이렇게 말했습니다: "가장 어두운 순간에도 우리는 믿음을 잃지 않았습니다. 왜냐하면 우리는 생물학적 뇌가 이미 이 문제를 해결했다는 것을 알고 있었으니까요."

이 극적인 여정은 아직 끝나지 않았습니다. Vision Transformer, CLIP, SAM 등 새로운 도전자들이 CNN의 왕좌를 위협하고 있죠. 하지만 CNN이 열어놓은 길은 영원히 AI 역사에 남을 것입니다.