728x90
반응형
데이터 라벨링은 툴을 활용하기에
겉보기에 쉬워 보일 수 있지만 실상은 그렇지 않다.

데이터 라벨링이 어려운 이유가 뭘까
.
.
.
1. 데이터 수집의 어려움
대량의 데이터를 어떤 경로로
어떻게 혼자서 수집할 수 있을까?
딥러닝은 대량의 데이터가 필요하고,
라벨링 작업을 진행할 원천데이터가 많아야한다.
원천데이터가 많아야 하는 이유
- 라벨링된 데이터 수가 줄어든다
- 중복 학습, 불필요한 데이터 제외하고 작업 진행 가능
이때 고려할 부분은 '저작권'

tvN 드라마 '또오해영'의
영상을 활용하는 과정에서
저작권 문제를 해결하기 위해
코난 테크놀로지가
드라마 제작사와 협의를 거친 사례도 있다.
국가 인공지능 프로젝트인 VTT:Video Turing Test 세부 비디오 이해를 위한 데이터 수집 & 보정 자동화 시스템 개발을 주관하던 중에 저작권 문제 발생 > 영상의 장면과 샷을 구간으로 분할하고 라벨링함
2. 데이터 품질 확보
어떻게 라벨을 부착할까?
에 대한 기준이 없다면
품질이 낮은 데이터를 얻게 된다.
여러 변수들 사이에서 상세한 기준이 필요하다.
[기준 정하는 방법]
- 데이터 수요 기업과 함께 작성한 데이터 가공에 대한 기준이 명확한지 확인한다
ex. 자동차 라벨링- 어떤걸 자동차로 규정할지, 자동차 어떤 부분을 표시할지, 자동차가 이미지 내에서 가려져 있는 경우 어떻게 처리할지 등 명확한 가이드라인 수립
- 고객이 제공할 서비스에 따라 다르게 정함
ex. AI기술로 어떤 서비스를 만들고 개발할지 고객 계획에 맞춰 고객과 함께 객체 이름, 데이터 가공 형식을 결정하고 이를 상세히 가이드로 만든다 > 가이드를 기반으로 학습데이터 만들기
3. 작업 인력 관리 및 양성
이미지 하나에 여러 객체가 있다면
라벨링을 위해 명확한 기준으로
객체 영역을 분리 후 라벨링 작업을 해야한다.
이를 작업할 인력이 있다는 것 자체가 만만치 않다
반응형
LIST