[배경]

- 정부에서는 '데이터 댐' 구축을 목표로 다양한 데이터 기반 정책을 추진 중임

- 대규모의 인공지능 학습용 데이터를 구축하고 민간에 개방함으로써 인공지능 생태계 확산 추진

[본문]

1. 인공지능 학습용 데이터의 개념

 - 머신러닝, 딥러닝 등 인공지능 모델 학습을 위해 활용되는 데이터

2. 인공지능 학습용 데이터 구축과정

인공지능 학습용 데이터 구축과정[출처:인공지능 학습용 데이터 품질관리 가이드라인 v2.0]

3. 구축 과정별 특징

구축과정 설명
임무정의 문제 정의, 학습용 데이터 정의하고 설계
데이터 수집 현실 세계에서 생성 또는 생성된 '원시 데이터' 확보
데이터 정제 데이터 형식 크기 맞춤, 중복제거, 개인정보 비식별처리를 통한 '원천 데이터' 확보
데이터 라벨링 기능과 목적에 부합하는 라벨을 원천 데이터에 부착
데이터 학습 학습데이터셋을 이용하여 학습 시키면서 품질 이슈가 발생하는지를 확인

4. 요소기술

요소기술 설명
인공지능 모델 - 데이터 학습 검증을 위한 모델
개인정보 비식별화 - 데이터 정제를 위한 비식별화 기술 (K-익명성)
JSON, XML - 라벨 데이터 포멧 

 

5. 인공지능 학습용 데이터와 빅데이터의 비교

구분 인공지능 학습용 데이터 빅데이터
구축목적 인공지능 모델의 학습 목적 인사이트 도출
사용기술 예측, 분류, 군집화, 차원축소 통계적 분석, 텍스트 마이닝
데이터 비정형 데이터 중심(소리, 영상, 이미지, 자연어) 텍스트 데이터, 정형 데이터
데이터구조 원천데이터와 라벨링 데이터 Pair 키와 값으로 구성
데이터 구축절차 임무정의 -> 수집 -> 정제 -> 라벨링 -> 검수 -> 학습 -> 저장 수집 -> 정제 -> 변환 -> 저장
데이터 저장방식 파일형태(원천 데이터 + JSON) No SQL DBMS에 저장

※ 인공지능 학습용 데이터는 지도학습(Supervised Learning)에 쓰이는 데이터로 한정

6. 동향

- 소외계층 일자리를 위한 크라우드 소싱 방식으로 데이터 라벨링 작업을 수행

- NIA에서는 데이터 품질을 위해 "인공지능 학습용 데이터 품질 가이드라인 v2.0" 지침 마련

 

출처 : 인공지능 학습용 데이터품질관리 가이드라인 v2.0

[끝]

 

[용어]

* 원시데이터 : 기계학습을 목적으로 수집 단계에서 수집 또는 생성한 ‘텍스트’, ‘이미지’, ‘비디오’, ‘오디오’ 등의 데이터

* 원천데이터 : 원시데이터를 라벨링 작업에 투입하기 위해 필요한 정제 작업을 수행한 데이터

* 라벨링데이터 : 원천데이터에 부여한 ‘참값’, 파일형식, 해상도 등의 데이터 속성과 설명, 주석 등이 포함된 ‘어노테이션’의 집합

* 크라우드소싱 : 다수의 작업자가 단기간에 대량의 데이터 수집 및 라벨링을 하는 방식.

220308_제1권 품질관리 안내서_(고화질).pdf
6.49MB

반응형

'정보통신 Topic > . 정보통신' 카테고리의 다른 글

비접촉식(Tagless) 대중교통 요금 결제 시스템  (0) 2022.08.04
POTN(Packet Optical Transport Network)  (0) 2022.03.18
Proxy Server  (0) 2022.03.08
802.11 be EHT(Wi-Fi 7)  (0) 2022.03.06
IP-MPLS와 MPLS-TP  (0) 2022.03.01