최봉 산업경제 전문기자 입력 : 2023.03.07 00:30 ㅣ 수정 : 2023.03.07 00:30
[기사요약] 기계 학습의 숙원 목표, 인간과 같은 ‘자기 지도 학습 알고리즘’ 개발하는 것 KAIST와 미국 럿거스 대학교의 국제 연구팀, 최근 이 문제의 돌파구 마련 사람의 레이블링 없이 자기 지도 학습 통해 영상 속 사물 식별할 수 있는 AI 모델 개발 OpenAI의 ‘달리(DALL-E)’에서 영감 얻어, 사실적이고 복잡한 영상 처리 가능 인간의 학습처럼 비지도 방식, 기존 AI가 시각 문제에 접근하는 방식 바꿀 가능성 있어..
[뉴스투데이=최봉 산업경제 전문기자] 기계 학습의 숙원 목표 중 하나는 복잡한 장면의 픽셀(pixel)을 보는 것만으로도 사물 중심(object-centric)의 실세계 구조를 학습할 수 있는 인간과 같은 ‘자기 지도 학습 알고리즘(self-supervised learning algorithm)’을 개발하는 것이다.
(※픽셀: 디지털 이미지를 이루는 원소. ‘picture element(그림 요소)’의 약어로, 특정한 빛과 색을 가진 동영상 이미지의 최소 해상도 단위(Daum 백과))
‘KAIST Breakthroughs’ 웹진(2023년 봄) 자료에 따르면, KAIST와 미국 럿거스 대학교(Rutgers University)의 국제 연구팀은 최근 이 어려운 문제에 돌파구를 마련했다고 한다.
즉 공동연구팀은 세계 최초로 복잡한 시각적 장면(scene)에 대한 자율(비지도) 사물 중심 학습 알고리즘 개발에 성공했다.
• 인간의 자기 지도 학습, 기계 학습이 풀어야 할 난제 중 하나
시각적 장면을 이해하는 것은 인간 두뇌의 가장 중요한 기능이며 특히 로봇, 자율주행 자동차 및 스마트 홈과 같은 시각 기반 응용 프로그램의 경우 AI의 핵심 기능이기도 하다.
그러나 AI에서 이러한 시각적 장면을 이해하는 것은 대단히 어려운 도전이다. 실세계에서는 이전에 볼 수 없었던 거의 무한에 가까운 다양한 사물(object) 유형을 만난다. 더욱이 장면은 그러한 많은 사물의 복잡한 구성으로 이루어져 있다.
이러한 어려움으로 인해 현재 AI 기술은 사물(대상)이 무엇인지 학습하기 위해 인간의 주석(즉 낱말이나 문장의 뜻을 쉽게 풀이해주는 도움)에 의존한다.
이미지가 주어지면 인간은 위치(location), 경계(boundary) 및 계층(class)과 같은 사물에 대한 표시(레이블)를 수집한다. 그런 다음 AI는 이러한 인간 레이블에 최대한 가깝게 예측하도록 훈련된다.
그러나 지도 학습(supervised learning)으로 알려진 이 접근 방식에는 높은 레이블링 비용, 높은 레이블링 오류 및 레이블 적응성 부족과 같은 많은 제한 사항이 있다.
• 사물에 대한 인간의 지도 학습, 효율적이며 맥락에 맞게 조정 가능
게다가 이 과정은 인간이 사물 중심의 세계를 보는 법을 배우는 것과는 크게 다르다.
발달 인지과학 관련 연구에 따르면 유아는 출생 후 처음 몇 개월 동안 사물에 대한 핵심 지식을 발달시킨다고 한다. 아기는 세상을 보는 것만으로도 (물론 만지고 맛보는 것도 포함하여) 스스로 능력을 배운다.
일반적으로 사물에 대한 인간의 학습은 AI와 달리 감독되지 않는다(즉 자율, 비지도).
이러한 인간의 자기 지도 학습은 AI의 지도 학습보다 훨씬 비용 효율적이며 사물 표현(representation)을 다양한 상황(맥락)에 맞게 동적으로 조정할 수 있는 기능을 제공한다.
이처럼 기계 학습, 컴퓨터 비전, 인지 과학의 오랜 꿈 중 하나는 픽셀을 보는 것만으로도 실세계의 사물 중심 구조를 학습할 수 있는 인간과 같은 자기 지도 학습 알고리즘을 개발하는 것이었다.
그러나 최근까지 복잡하고 자연스러운 장면에 대해 이를 달성하는 것은 매우 어려운 일이었다. 이 어려운 문제를 풀 수 있는 실마리를 KAIST와 미국 럿거스 대학교 연구팀이 마련한 것이다.
• 달리(DALL-E)에서 영감 얻어, 실세계 장면에 적용 가능한 최초 모델
연구팀은 사람의 레이블링 없이 인간과 유사하게 환경에 대한 관측만으로 사물의 개념을 자기 지도 학습을 통해 스스로 영상 속 객체를 식별할 수 있는 AI 모델을 개발했다.
연구팀은 8개의 데이터 세트를 대상으로 AI 모델을 평가하였다. 이 가운데 6개는 실험을 위해 순서대로 만들어진 것이고 2개는 실세계 영상이다.
실세계 영상은 복잡한 교통상황과 수족관 모습으로, 유튜브에서 6시간 길이의 비디오 스트림을 수집하여 데이터 세트를 만들었다.
OpenAI의 텍스트-이미지 생성 모델인 달리(DALL-E)에서 영감을 얻었다는 연구팀은 모델에 DALL-E와 유사한 트랜스포머 디코더를 사용하는 것이 사실적이고 복잡한 영상을 처리할 수 있게 한 주요 요인이라고 밝혔다.
비지도 학습(Unsupervised Learning)을 이용한 이전 연구들은 사물 형태와 배경이 명확히 구분될 수 있는 단순한 장면에서만 객체를 식별하는 단점이 있었다.
이와 달리 공동연구팀이 개발한 이번 기술은 복잡한 형태의 다양한 사물이 존재하는 사실적인 장면에도 적용될 수 있는 최초의 모델이라는데 의의가 있다는 평가다.
• 지난 수십 년간 AI가 시각 문제에 접근하는 방식 바꿀 가능성이 있어..
연구팀을 이끈 관계자는 “이 기술은 인간의 학습처럼 비지도(unsupervised) 방식이기 때문에 지난 수십 년간 AI가 시각 문제에 접근하는 방식을 바꿀 가능성이 있다”고 말했다.
또한 “광범위한 시각적 AI 응용 프로그램의 경우 비용과 오류를 줄이는 데 도움이 되는 동시에 사물이 무엇인지 더 순응적으로 배울 수 있는 새로운 응용 프로그램에 대한 기회를 열어줄 것이다.”라고 덧붙였다.
비지도, 자율 학습이 가능한 AI 세상에 점점 더 다가가고 있는 것이 조금은 두렵기도 하다.