[배경]
- 정부에서는 '데이터 댐' 구축을 목표로 다양한 데이터 기반 정책을 추진 중임
- 대규모의 인공지능 학습용 데이터를 구축하고 민간에 개방함으로써 인공지능 생태계 확산 추진
[본문]
1. 인공지능 학습용 데이터의 개념
- 머신러닝, 딥러닝 등 인공지능 모델 학습을 위해 활용되는 데이터
2. 인공지능 학습용 데이터 구축과정
3. 구축 과정별 특징
구축과정 | 설명 |
임무정의 | 문제 정의, 학습용 데이터 정의하고 설계 |
데이터 수집 | 현실 세계에서 생성 또는 생성된 '원시 데이터' 확보 |
데이터 정제 | 데이터 형식 크기 맞춤, 중복제거, 개인정보 비식별처리를 통한 '원천 데이터' 확보 |
데이터 라벨링 | 기능과 목적에 부합하는 라벨을 원천 데이터에 부착 |
데이터 학습 | 학습데이터셋을 이용하여 학습 시키면서 품질 이슈가 발생하는지를 확인 |
4. 요소기술
요소기술 | 설명 |
인공지능 모델 | - 데이터 학습 검증을 위한 모델 |
개인정보 비식별화 | - 데이터 정제를 위한 비식별화 기술 (K-익명성) |
JSON, XML | - 라벨 데이터 포멧 |
5. 인공지능 학습용 데이터와 빅데이터의 비교
구분 | 인공지능 학습용 데이터 | 빅데이터 |
구축목적 | 인공지능 모델의 학습 목적 | 인사이트 도출 |
사용기술 | 예측, 분류, 군집화, 차원축소 | 통계적 분석, 텍스트 마이닝 |
데이터 | 비정형 데이터 중심(소리, 영상, 이미지, 자연어) | 텍스트 데이터, 정형 데이터 |
데이터구조 | 원천데이터와 라벨링 데이터 Pair | 키와 값으로 구성 |
데이터 구축절차 | 임무정의 -> 수집 -> 정제 -> 라벨링 -> 검수 -> 학습 -> 저장 | 수집 -> 정제 -> 변환 -> 저장 |
데이터 저장방식 | 파일형태(원천 데이터 + JSON) | No SQL DBMS에 저장 |
※ 인공지능 학습용 데이터는 지도학습(Supervised Learning)에 쓰이는 데이터로 한정
6. 동향
- 소외계층 일자리를 위한 크라우드 소싱 방식으로 데이터 라벨링 작업을 수행
- NIA에서는 데이터 품질을 위해 "인공지능 학습용 데이터 품질 가이드라인 v2.0" 지침 마련
출처 : 인공지능 학습용 데이터품질관리 가이드라인 v2.0
[끝]
[용어]
* 원시데이터 : 기계학습을 목적으로 수집 단계에서 수집 또는 생성한 ‘텍스트’, ‘이미지’, ‘비디오’, ‘오디오’ 등의 데이터
* 원천데이터 : 원시데이터를 라벨링 작업에 투입하기 위해 필요한 정제 작업을 수행한 데이터
* 라벨링데이터 : 원천데이터에 부여한 ‘참값’, 파일형식, 해상도 등의 데이터 속성과 설명, 주석 등이 포함된 ‘어노테이션’의 집합
* 크라우드소싱 : 다수의 작업자가 단기간에 대량의 데이터 수집 및 라벨링을 하는 방식.
반응형
'정보통신 Topic > . 정보통신' 카테고리의 다른 글
비접촉식(Tagless) 대중교통 요금 결제 시스템 (0) | 2022.08.04 |
---|---|
POTN(Packet Optical Transport Network) (0) | 2022.03.18 |
Proxy Server (0) | 2022.03.08 |
802.11 be EHT(Wi-Fi 7) (0) | 2022.03.06 |
IP-MPLS와 MPLS-TP (0) | 2022.03.01 |