- 몇 년 전에 정부 AI과제를 수행 중에 중간평가 심사를 받을 때 일어났던 일입니다.- 과제 심사위원들이 딥러닝에서 데이타가 점점 더 중요해지고 있다는 소리를 어디서 들었는지, 학습에 사용된 클래스별 데이터의 원래 수량과 각각의 오그먼테이션(Augmentation, 데이터 증강) 방식별 부풀려진 수량을 테이블로 정리해서 알려달라고 요구하였지요.- 하지만 데이타 전처리 타임이 아닌 학습 타임(train time)에 오그먼테이션을 하기 때문에 수량을 산정하기가 어려운 문제가 있었습니다.- 다시 말하면, 학습타임에 확률적으로 오그먼테이션된 이미지를 발생시켜서 메모리에 임시저장했다가 모델에 입력하고 바로 지워버리는 방식으로 반복적으로 진행하기 때문에 정확한 오그먼테이션 이미지 수량을 집계하는 게 어려운 것입니..