사이언스

[사이언스] 인공지능 심층 학습(딥러닝) 서비스 구축 비용 최소화 가능한 데이터 정제 기술 개발

전산학부 이재길 교수팀, 인공지능 데이터 구축 비용을 최소화하는 새로운 방안 제시
12월 최고권위 국제학술대회 ‘신경정보처리시스템학회 2022’에서 발표 예정

특허뉴스 염현철 기자 | 기사입력 2022/10/12 [13:41]

사이언스

[사이언스] 인공지능 심층 학습(딥러닝) 서비스 구축 비용 최소화 가능한 데이터 정제 기술 개발

전산학부 이재길 교수팀, 인공지능 데이터 구축 비용을 최소화하는 새로운 방안 제시
12월 최고권위 국제학술대회 ‘신경정보처리시스템학회 2022’에서 발표 예정

특허뉴스 염현철 기자

| 입력 : 2022/10/12 [13:41]

▲ 연구팀에서 개발한 `메타 질의 네트워크' 방법론의 동작 개념도. 추가적인 신경망을 도입하여 메타학습을 통해 순도-정보도의 최적 균형을 추정할 수 있도록 하였다. 이에 따라, 비정제 데이터의 분포 外 데이터를 정제하고 중요한 목표 데이터를 선택함으로써 훈련 데이터를 준비하는 비용을 최소화하는 효과를 얻게 된다. 주어진 같은 비용 내에서 훈련 데이터를 구축하였을 때 가장 높은 예측 정확도를 얻을 수 있음을 다양한 실험을 통해 입증하였다.(그림/자료제공_KAIST) © 특허뉴스

최근 다양한 분야에서 인공지능 심층 학습(딥러닝) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서 인공지능은 심층신경망을 훈련해야 하며, 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 특히 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요한데 (예를 들어, 고양이 사진에 `고양이'라고 정답을 적어줌), 이 과정은 일반적으로 수작업으로 진행되므로 엄청난 노동력과 시간적 비용이 소요된다. 따라서 훈련 데이터 구축 비용을 최소화하는 방법 개발이 요구되고 있다.

KAIST는 전산학부 이재길 교수 연구팀이 심층 학습 훈련 데이터 구축 비용을 최소화할 수 있는 새로운 데이터 동시 정제 및 선택 기술을 개발했다고 12일 밝혔다.

일반적으로 심층 학습용 훈련 데이터 구축 과정은 수집, 정제, 선택 및 레이블링 단계로 이뤄진다. 수집 단계에서는 웹, 카메라, 센서 등으로부터 대용량의 데이터가 정제되지 않은 채로 수집된다. 따라서 수집된 데이터에는 목표 서비스와 관련이 없어서 주어진 레이블에 해당하지 않는 분포 외(out-of-distribution) 데이터가 포함된다 (예를 들어, 동물 사진을 수집할 때 재규어 `자동차'가 포함됨). 이러한 분포 외 데이터는 데이터 정제 단계에서 정제돼야 한다. 모든 정제된 데이터에 정답지를 만들기 위해서는 막대한 비용이 소모되는데, 이를 최소화하기 위해 심층 학습 성능 향상에 가장 도움이 되는 훈련 데이터를 먼저 선택해 레이블링하는 능동 학습(active learning)이 큰 주목을 받고 있다. 그러나 정제와 레이블링을 별도로 진행하는 것은 데이터 검사 측면에서 중복적인 비용을 초래한다. 또한 아직 정제되지 않고 남아 있는 분포 외 데이터가 레이블링 단계에서 선택된다면 레이블링 노력을 낭비할 수 있다.

이재길 교수팀이 개발한 기술은 훈련 데이터 구축 단계에서 데이터의 정제 및 선택을 동시에 수행해 심층 학습용 훈련 데이터 구축 비용을 최소화할 수 있도록 해준다.

데이터의 정제 및 선택을 동시에 고려하기 위해서 구체적으로 가장 분포 외 데이터가 아닐 것 같은 데이터 중에서 가장 심층 학습 성능 향상에 도움이 될 데이터를 선택한다. 즉, 주어진 훈련 데이터 구축 비용 내에서 최고의 효과를 내도록 데이터의 순도(purity) 지표와 정보도(informativeness) 지표의 최적 균형(trade-off)을 찾는다. 순도와 정보도는 일반적으로 서로 상충하므로 최적 균형을 찾는 것이 간단하지 않다. 이 교수팀은 이러한 최적 균형이 정제 전 데이터의 분포 외 데이터 비율과 현재 심층신경망 훈련 정도에 따라 달라진다는 점을 발견했다.

이 교수팀은 이러한 최적 균형을 찾아내기 위해 추가적인 작은 신경망 모델을 도입했다. 연구팀은 추가된 모델을 훈련하기 위해 능동 학습에서 여러 단계에 걸쳐 데이터를 선별하는 과정을 활용했다. 즉, 새롭게 선택돼 레이블링 된 데이터를 순도-정보도 최적 균형을 찾기 위한 훈련 데이터로 활용했고, 레이블이 추가될 때마다 최적 균형을 갱신했다. 이러한 방법은 목표 심층신경망의 성능 향상을 위해 추가적인 상위 레벨의 신경망을 사용하였다는 점에서 메타학습(meta-learning)의 일종이라 볼 수 있다.

연구팀은 이 메타학습 방법론을 `메타 질의 네트워크'라고 이름 붙이고 이미지 분류 문제에 대해 다양한 데이터와 광범위한 분포 외 데이터 비율에 걸쳐 방법론을 검증했다. 그 결과, 기존 최신 방법론과 비교했을 때 최대 20% 향상된 최종 예측 정확도를 향상했고, 모든 범위의 분포 외 데이터 비율에서 일관되게 최고 성능을 보였다. 또한, `메타 질의 네트워크'의 최적 균형 분석을 통해, 분포 외 데이터의 비율이 낮고 현재 심층신경망의 성능이 높을수록 정보도에 높은 가중치를 둬야 함을 연구팀은 밝혀냈다.

제1 저자인 박동민 박사과정 학생은 "이번 기술은 실세계 능동 학습에서의 순도-정보도 딜레마를 발견하고 해결한 획기적인 방법ˮ 이라면서 "다양한 데이터 분포 상황에서의 강건성이 검증됐기 때문에, 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것ˮ 이라고 밝혔다.

연구팀을 지도한 이재길 교수도 "이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것이다ˮ고 말했다.

KAIST 데이터사이언스대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 신유주 박사과정, 이영준 박사과정 학생이 제2, 제4 저자로 각각 참여한 이번 연구는 최고권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2022'에서 올 12월 발표될 예정이다. (논문명 : Meta-Query-Net: Resolving Purity-Informativeness Dilemma in Open-set Active Learning)

이 기사 좋아요

특허뉴스 염현철 기자의 다른기사보기

전체댓글보기

인공지능,딥러닝,데이터정제기술개발,레이블링,능동학습, 관련기사목록

[사이언스] 인공지능 심층 학습(딥러닝) 서비스 구축 비용 최소화 가능한 데이터 정제 기술 개발

PHOTO

“담보 잡힌 특허도 돈이 될 수 있다!”... 특허청, 담보IP 수익화해 IP담보대출 지원

많이 본 기사

1인 가구 시대, 성장하는 간편식 시장... 특허기술도 증가

전기차 화재 막을 수 없나?... 특허기술 본 전기차 화재 예방 대책 방안은?

"반도체 장비 산업의 미래를 이끈다"... 특허청, 세메스(주)와 특허경쟁력 강화를 위한 현장 소통 간담회 개최

지구의 물 부족 문제 해결, 해수담수화가 답이다

2030년 메타버스 시장 5,078억 달러 돌파 전망... IP 보호와 표준특허 확보 시급

국가 기술경쟁력의 열쇠, ‘특허 존중 사회’가 특허의 가치와 미래를 말하다

해외직구 위조상품, 본격 단속 시작... 특허청-관세청, 5천 건 단속 성과로 협력 강화

대기업과 중소기업의 상생 모델 탄생... '상표공존동의제'로 상표등록 성공

최고의 지식재산 인재를 가린다... ‘2024 캠퍼스 특허 유니버시아드’ 시상식 개최

사이언스 많이 본 기사

AI로 신소재 설계 혁명... KAIST, 그린수소·배터리 촉매의 미래를 바꾸다

KAIST, 초박막 기술로 초고해상도 이미지 센서 시대 연다

고품질 오가노이드 대량 생산 기술 확보... 동물대체시험법·재생 치료제 개발 청신호

KAIST, 차세대 구조배터리 개발... 에너지 저장과 하중 지지를 동시에

따개비처럼 강력하고 아르마딜로처럼 유연하다... UNIST, 초강력 피부 접착 패치 개발

최신기사

특허 분쟁, 이제 조정으로 해결...특허심판원-상사중재원 협력 강화

K-브랜드 글로벌 진출 돕는다...특허청, '해외 상표검색 길라잡이' 3종 발간

특허·디자인 융합 시대... 선행 디자인 검색, 이제 더 빠르고 정확하게

[인사] 특허청

AI로 신소재 설계 혁명... KAIST, 그린수소·배터리 촉매의 미래를 바꾸다

한국특허신문사ㅣ제호: 특허뉴스 (月刊)ㅣ정기간행물 등록번호:서울강남 라01064ㅣ등록일: 2005년 4월6일
인터넷신문ㅣ제호: 특허TVㅣ등록번호:서울,아03336ㅣ등록·발행일: 2014년9월25일
발행소: 우(06132) 서울특별시 강남구 테헤란로 151(역삼동)ㅣ대표전화:02-2238-4345ㅣ팩스:02-2238-6769
발행/편집인: 이성용ㅣ청소년보호책임자: 이성용ㅣ뉴스제보: patentnews@naver.com
특허뉴스의 모든 컨텐츠(기사)는 저작권법의 보호를 받습니다. 무단 전재·복사·배포 등을 금지합니다.
Copyright ⓒ 2005 특허뉴스. All rights reserved.

[사이언스] 인공지능 심층 학습(딥러닝) 서비스 구축 비용 최소화 가능한 데이터 정제 기술 개발

전산학부 이재길 교수팀, 인공지능 데이터 구축 비용을 최소화하는 새로운 방안 제시 12월 최고권위 국제학술대회 ‘신경정보처리시스템학회 2022’에서 발표 예정

[사이언스] 인공지능 심층 학습(딥러닝) 서비스 구축 비용 최소화 가능한 데이터 정제 기술 개발

전산학부 이재길 교수팀, 인공지능 데이터 구축 비용을 최소화하는 새로운 방안 제시 12월 최고권위 국제학술대회 ‘신경정보처리시스템학회 2022’에서 발표 예정

전산학부 이재길 교수팀, 인공지능 데이터 구축 비용을 최소화하는 새로운 방안 제시
12월 최고권위 국제학술대회 ‘신경정보처리시스템학회 2022’에서 발표 예정

전산학부 이재길 교수팀, 인공지능 데이터 구축 비용을 최소화하는 새로운 방안 제시
12월 최고권위 국제학술대회 ‘신경정보처리시스템학회 2022’에서 발표 예정