추억 소환

라벨링의 추억

제갈티 2024. 9. 19. 09:58

이미지 속의 찾고자하는 물체들을 라벨링하는 모습, 데이타 어노테이션 이라고도 부른다.

 

- 제조업 공장에 가본 적이 있으신가요?

- 요즘 공장엔 사람이 거의 없죠.. 공정상의 대부분이 자동화되었기 때문입니다. 그런데 그런 공장에도 사람이 남아있는 유일한 곳이 있습니다. 바로 제품의 결함(Defects)을 찾아내려고 육안으로 비전(Vision) 검사를 하는 곳입니다.

- 라벨링(Labeling)은 아직은 인간 만이 할 수 있습니다. 왜냐고요? 지구상에서 인간이 가장 비선형적인(Non-Linear) 존재들이기 때문 입니다. 일찍이 뉴턴도 혀를 내두르며 두 손 두 발 다 들었을 정도죠.

- 비선형적이라는게 무엇일까요? 바로 예측이 불가능하다는 것입니다. 실측의 결과가 그때그때 다르며, 개인마다 다릅니다.

- 라벨링을 수학적 영상처리 등의 컴퓨터 알고리즘으로 자동화하려고 잔머리를 굴리는 순간, 컴퓨터는 선형적인(Linear) 라벨링 결과를 마구 생산해 냅니다.

- 선형적인 라벨링 데이터가 왜 문제일까요? 선형적인 데이터는 딥러닝 모델의 일반화성능을 떨어뜨리게 됩니다. 이른바 오버핏(Overfit, 과적합)이라는 결과가 발생한다는 이야기입니다.

- 오버핏이 발생하면 조금만 양상이 다른 입력이 들어와도 잘못된 예측결과를 출력합니다. 일반화 성능이 떨어지는 거죠.

- 이렇게 비선형적이고 개인적인 라벨링 결과물들은 NFT와의 연결도 아주 궁합이 잘 맞을 듯(가치가 있을 듯) 합니다. 관심 있는 분들은 한번 시도해 보시죠?

- 석박사 출신 딥러닝 엔지니어들도 라벨링을 할까요? 물론입니다. 아이디어가 떠오를 때마다 비용을 지불해 가며 라벨링 하청을 줄순 없으니까요.. 그래서 혼자서 매일 최소 300장씩 라벨링 하는 게 일상다반사이지요. --;

- 가방끈 긴 고학력자들이 수백 장씩 라벨링을  수시로 하고 있으면 자괴감이 들 법도하지만 그게 현실입니다. 라벨링이야말로 딥러닝의 꽃 이거든요. 물론 생성 AI 같은 초거대 AI모델들이 사용되는 분야는 예외이지만 제조업 같은 분야에서 여전히 라벨링이 중요합니다.

- 제조업 쪽은 데이터가 늘 부족합니다. 왜냐면 개성시대의 진입으로 소량 다품종 생산이 요즘 트렌드이기 때문인데요.. 따라서 한 장의 이미지도 유출을 극도로 꺼리며 데이터 공유시 유출을 방지하기 위한 보안서약서 작성은 기본입니다.

- 따라서 수많은 웹기반의 편리한 라벨링 유틸들이 있지만 아무도 웹에는 소중한 데이터를 업로드해 작업하려 하지 않죠. 그래서 여전히 Labelme 같은 다운로드하여 설치해 로컬에서 사용하는 오프라인 라벨링 도구들이 대세인 것입니다.

- 데이터가 인공지능의 핵심이란 걸 개인과 기업들이 점점 깨닫고 있습니다. 따라서 데이터의 보안은 점점 더 중요해질 것이며, 그래서 동형암호(homo-morphic encryption) 같은 것까지 등장하고 있기도 하지요.

- 심지어 일부 대기업들은 데이터 보호를 위해 자기네 회사 안에 들어와서 라벨링과 딥러닝 모델개발을 해달라는 요구를 하기도 합니다.

- json, xml, csv, txt 등의 라벨링 포맷은 아직은 춘추전국시대이고 앞으로도 계속 그러할 것입니다.왜냐고요? 잘 라벨링 된 빅데이터 자체가 포맷권력(?) 이기 때문이죠.

- 수학적 영상처리는 몇 장의 이미지만 보여줘도 알고리즘을 짜는 게 가능합니다. 하지만 데이터가 다양할수록 정확도는 떨어집니다. 반대로  딥러닝은 데이터가 많을수록 정확해집니다..그래서 라벨링부터 해야 하지요. 따라서 딥러닝에서 진짜 알고리즘은 오로지 데이터로부터 만 나옵니다.

 

OpenCV 라이브러리로 수학적으로 영상처리 하는 모습, 딥러닝과는 달리 CPU만으로 연산이 가능하다.

 

- 따라서 OpenCV로 대표되는 수학적 영상처리와 데이터-드리븐(Data-Driven) 방식의 딥러닝은 서로 보완해 줄 필요가 있는데 요즘 쥬니어분들은 무조건 처음부터 딥러닝으로만 해결하려 달려드는 게 문제라고 봅니다..

- 이는 CUDA 그래픽카드로 많은 전력소모를 일으켜 지구환경에도 안 좋은 접근방식 일수 있습니다. 그리고 그 와중에 수학적 영상처리에 익숙한 엔지니어들은 하나 둘 은퇴를 하는 중이기도 하고요...

- 딥러닝 방식은 일반화(Generalization) 성능에 도달하기까지 엄청난 라벨링 노가다와 인간 소통비용(고객과 개발자 간)이 필요하며 결과 성능에 대한 통계조작의 유혹을 견뎌내야 합니다. 그리고 지도학습(Supervised Learning)은 다른 말로하면 강제학습이기도 해서, 부족한 데이타라도 다양한 오그먼테이션과 깊은 모델을 사용하면 인식율이 99% 가깝게 나오는 문제가 있습니다.

- 그렇게 99%를 달성한 모델을 제조업 현장에 설치하고 가동하기 시작하면 조금만 양상이 다른 데이타가 들어와도 인식률이 바닥으로 떨어집니다. 이른바 모델의 과적합(Overfit) 때문이죠. 그러면 그때부터 개발자는 새 결함 데이타를 모아서 딥러닝 모델을 재학습하고 다시 납품하고, 또 새로운 데이타가 발생하면 인식율 떨어지고, 다시 재학습하고 ... 더이상 새로운 결함데이타가 없을때까지 이런 노가다는 무한반복 됩니다.

- 즉, 모델을 완성하여 고객에 납품하는 시점이 프로젝트의 끝이 아니라, 프로젝트의 진짜 시작인 셈입니다.

 

식스시그마 운동을 만든 (고)잭웰치 GE 회장

- 의도치 않게 학습 셋이 테스트 셋에 섞여 들어가는 데이터 누수현상도 종종 발생하고..결국 과거 식스시그마(6-sigma) 운동 때처럼 사람들이 정직하지 않음으로 인한 문제발생과 실패확률이 매우 높아지게 됩니다. 식스시그마 운동은 창시자 잭웰치회장의 사망과함께 실패로 끝났다는게 역사적 평가입니다.

- 모든 최신 논문들이 자기네 모델링 기법으로 SOTA(최고성능)를 찍었다고 주장하지요, 하지만 아무도 거기에 사용된 데이터 이야긴 거의 하지 않습니다. 왜냐하면 모델링 보다 데이터가 더 중요하다고 말하는 순간 자신들의 논문의 가치가 떨어지기 때문이며 데이타 자체론 논문을 쓸 수 없기 때문이기도 하죠.

- 일반적으로 데이터가 좋으면 어떤 모델로 학습해도 결과가 좋습니다. 하지만 반대로 데이타가 나쁘면 어떤 모델로 학습해도 결과가 나쁘지요. 좋은 데이터란 무엇일까요? 잘 라벨링 되고 충분히 많으며 충분히 다양한 데이터를 말합니다.

- 갑 기업은 종종 부족한 데이터와 엉터리로 라벨링 된  데이터로 을 기업에 갑질을 하기도 합니다. 그런 데이터를 주면서 항상 99%의 일반화 성능을 내는 모델을 만들어 줄 것을 요구하죠. 아니면 고객사의 대표는 딥러닝 기술도입에 적극적인데 정작 그 밑에 실무자들은 무관심하여 엉터리로 라벨링을 해주거나 데이타 제공에 비협조적인 경우도 비일비재 합니다. 결국 인간이 하던일을 딥러닝이 대치하는 것이므로 결과적으론 그들의 일자리를 위협하는 기술이 될테니까요...

- 성공적인 딥러닝으로 공장라인에서 비전검사가 대치되면,  그때부턴 기계가 잠도 안자고 점심밥도 안먹으며 화장실이나 휴가도 안가고 상사에게 대들지도 않으면서 일년내내 그일을 인간보다 더 잘 해낼 것이므로 ~

- 아이패드와 손가락 핀치, 애플펜슬로 이미지 라벨링을 편리하게 하는 앱이 나오면 아주 강력할 거 같은데.. 아무도 시도를 안 하고 있습니다. 앱개발에 관심 있는 분들은 한번 개발을 시도해 보세요.

- 한때 경증 자폐증을 겪는 소통가능한 자폐우들이 집중력도 좋고 라벨링을 매우 잘한다는 소문이 있었는데 요즘은 어떤지 모르겠습니다...

- 오늘날엔 어려운 노인분들이 나가서 폐지를 줍지만 미래엔 어려운 노인분들이 집에서 컴퓨터를 켜고 라벨링을 할지도 모릅니다. 왜냐하면 근 미래엔 그런 단순 육체노동은 로봇으로 대체될지도 모르지만 라벨링은 여전히 인간만이 할수 있을테니까요... 미리 연습해 둡시다~ ^ ^;


추신:

- 프로크리에이트 라는 아이패드 기반의 유명한 드로잉앱을 만든 회사는, 자사 앱에 AI그림 생성기술을 도입하지 않겠다고 선언했답니다. 저는 잘한 결정이라고 생각합니다. 사람들의 타고난 자기만의 그림체야 말로 앞으로 점점 더 중요해질 개인 콘테츠가 될것이기 때문입니다. 창작물에 AI가 접목되면 그런 개인 그림체가 점점 사라질것이므로~

- 최근에는 초거대모델+생성AI로 새로운 데이타를 합성하는 합성데이타가 점점 중요해지고 있습니다. 하지만 그것 또한 인간이 최종적으로 쓸만한것만 남기고 이상한 건 버리는 취사선택을 해주어야 합니다. 역시나 그 작업에도 비선형적인 인간의 안목이 필요한 것이죠. 이 시장도 제법 커질 가능성이 있다고 봅니다. 어쩌면 그게 차세대 라벨링의 핵심이 될지도 모르구요!