데이터 라벨링Date Labelling. : 인공지능 AI가 스스로 학습할 수 있게끔 데이터를 가공하는 작업이다.
사진, 동영상, 데이터 라벨링이란 이미지, 영상, 텍스트 등의 데이터에 사람이 데이터 가공 도구를 활용하여 인공지능이 학습할 수 있도록 다양한 정보를 목적에 맞게 가공하는 것이다.
간단한 뜻은 이해를 할 수 있지만 데이터 라벨링의 범위는 끝이 없다고 할 수 있다. 왜냐하면 요즘의 인공지능, AI는 인간과 거의 유사한 수준에 도달하였기 때문에 사람이 느끼는 것과 같이 모든 것을 표현하는 수준까지 와 있기 때문이다. 단순히 텍스트를 읽고 이해하는 수준이 아니고, 목소리의 억양과 톤에 따른 사람의 감정 표현이나, 얼굴에 나타나는 감정, 행동하는 모습에서 느껴지는 감정까지도 정보를 받아들이고 사람처럼 인지하는 수준까지 올라와 있다.
그렇게 하기 위해서는 세상의 모든 인종과 국가에따른 생활 습관이나 감정표현방법, 억양, 제스쳐, 얼굴표정까지도 모두 데이터를 수집해야 가능하다는 뜻이다. 그렇다고 무조건 데이터만 모으면 되는 것이 아니다. 정확한 정보를 넣어야 정확한 결과물이 나온다고 할수 있다. (GIGO = gabage in gabage out = gold in gold out)
여기서 정확한 정보를 만드는 것이 데이터 라벨링의 과정이라 할수 있다. 많은 정보들 가운데 필요한 정보를 정확하게 구분짓고 표시하는 일이라고 할 수 있다.
AI는 이제 SF영화에 나오는 먼 세상이야기가 아니다. 곧 다가올 미래이고 지금도 우리 주변에 조금씩 모습을 나타내고 있다. 그렇다는 것은 미래 산업, 즉 우리산업의 다음 먹거리가 된다는 이야기다. 모든 국가들이 인공지능에 투자를 하고 있으며 기본이 되는 데이터를 모으는데 엄청나게 많은 돈과 시간을 투자하고 있다. 이것이 곧 AI 의 시작이고 기본적인 투자가 되는 것이다.
우리나라에서도 여러회사들이 이 데이터 수집에 뛰어들고 있고, 데이터라벨링이 직업으로서 자리를 찾아가고 있다. 데이터 라벨러가 되기위해서 교육도 필요하고 실습도 필요하다. 이러한 과정을 국가에서도 지원하고 있으면 자택근무 언텍트 시대에 자유롭게 일할 수 있는 직업으로도 시작되고 있다.