[생성형 AI(Generative AI), 인간의 창작 영역을 넘본다! (10)] 검색 엔진의 절대강자 구글, ChatGPT 등장으로 노심초사? 아직은.. (上)
최봉 산업경제 전문기자 입력 : 2023.03.14 00:30 ㅣ 수정 : 2023.03.14 00:30
[기사요약] 온라인 검색 분야의 절대강자 구글, Generative AI 등장으로 위기감 느껴.. 최대 경쟁자 마이크로소프트, ChatGPT를 자사의 다양한 제품군에 통합하는 계획 발표 하지만 구글의 견고한 ‘아성’ 넘으려면, 극복해야 할 실질적, 기술적 문제 있어.. 검색 엔진 아닌 ChatGPT, 실시간 정보 액세스 어려운 것이 한계 LLM의 지속적 재훈련에 필요한 막대한 자원과 비용, 감당하기 쉽지 않아
사람들은 시, 소설, 보고서 등 글쓰기, 그림 그리기, 알고리즘 코딩 등 창작의 세계가 그동안 인간에게만 허락된 별도의 영역이라 알고 있었다. 그런데 AI(인공지능)의 발전과 함께 이제는 진화한 AI가 스스로 창작의 영역을 넘보는 시대가 되었다. 생성형 AI(Generative AI)의 등장은 인간에게 어떤 의미가 있으며 우리의 미래에 어떤 영향을 미칠지 가늠하기 쉽지 않지만, 생성형 AI는 이미 여러 분야에서 현실로 나타나 적용되고 있다. 우리에게 성큼 다가온 생성형 AI의 시장현황, 다양한 이슈와 관심 사항 등을 살펴보기로 하자. <편집자 주>
[뉴스투데이=최봉 산업경제 전문기자] ‘아성(牙城)’은 아기(牙旗)를 꽂아둔 성을 의미한다. 아기란, 지휘관이 쓰는 깃발로 옛날에는 상아(象牙) 조각을 깃대에 걸어 장식한 것을 말한다. 결국, 지휘관이 머무는 자리이므로 방어가 삼엄하고 난공불락일 수밖에 없다. 비슷한 말로 철옹성(鐵甕城)이 있다(다음 백과).
「온라인 검색(search)」 분야의 아성을 이루고 있는 현시대의 지배자는 누구일까? 의심의 여지도 없이 구글(Google)을 꼽을 것이다. 2022년 12월 기준, 검색시장에서 구글의 점유율은 84%에 이른다.
• 온라인 검색 분야의 절대강자 구글, Generative AI 등장에 긴장?
이 같은 절대강자 구글이 ChatGPT를 필두로 한 Generative AI(생성형 AI)의 등장 그리고 이들의 광풍에 가까운 활약으로 긴장하고 있다. 가장 강력한 도전자는 마이크로소프트다.
마이크로소프트는 최근 ChatGPT의 개발자인 OpenAI에 100억달러를 투자하고 이 도구를 자사의 검색 엔진인 빙(Bing)을 비롯한 다양한 제품군에 통합하는 계획을 발표한 바 있다.
GPT 모델을 활용한 새로운 빙은 대화형 AI를 통해 알고자 하는 정보를 찾고, 콘텐츠를 생성하는 새로운 검색 경험을 제공한다는 특징을 갖는다(※이와 관련한 내용은 추후에 다루기로 하겠다). 즉 검색과 동시에 새로운 콘텐츠 생성 능력까지 갖추게 되는 것이다.
한편 구글은 자체 AI 도구인 바드(Bard)를 준비중(필자의 본 시리즈 7편(2023년 2월 14일) 참고)이며, 중국의 기술 대기업 바이두(Baidu)도 ChatGPT의 대항마 출시를 준비하고 있다. 또한 시장 참여를 위해 Generative AI 스타트업에도 수백만 달러가 쏟아지고 있는 것이 현실이다.
하지만 ChatGPT를 비롯한 Generative AI의 ‘과열 현상’에도 불구하고, 이러한 AI 도구가 구글과 같은 기존 검색 엔진의 규모, 견고성 그리고 안정성에 도달하기 위해서는 극복해야 할 실질적, 기술적 문제가 있다.
• 하지만 구글의 ‘아성’ 무너뜨리려면, 다양한 문제 극복해야...
검색 분야의 강자가 되고자 하는 ChatGPT의 입장에서 우선 고민해야 하는 것은 현재 형태의 ChatGPT는 검색 엔진이 아니라는 사실이다. 즉 실시간 정보에 액세스할 수 있는 구글과 같은 웹 크롤링(web-crawling) 검색 엔진과는 다르기 때문이다.
ChatGPT는 ‘2021년 10월까지’의 대규모 데이터 세트를 기반으로 훈련되었다. 이 교육 과정을 통해 ChatGPT는 엄청난 양의 정적인 지식과 인간 언어를 이해하고 생산하는 능력을 얻었다. 그러나 그 이상은 “모른다”. 거기까지이고 그것이 한계다.
ChatGPT에 관한 한, 러시아는 우크라이나를 침공하지 않았고(2022년 2월 침공), FTX는 성공적인 암호화폐 거래소이며(2022년 11월 파산), 엘리자베스 여왕은 살아 있고(2022년 9월 사망), 코로나19는 오미크론 단계에 도달하지 못했다(Harvard Business Review, 2023.2). 그리고 한국의 대통령은 윤석열이 아니라 여전히 문재인이다.
• 실시간 정보 아닌 ChatGPT, 단기간에 이 문제 극복하기 쉽지 않을 듯
실시간 정보에 액세스하기 어려운 ChatGPT의 이 문제가 가까운 미래에 바뀔 수 있을까?
현재로서는 인터넷 정보가 진화하고 발전함에 따라 LLM(Large Language Model, 대규모 언어모델)을 지속적으로 재훈련하는 것이 매우 어렵다.
가장 분명한 문제는 LLM을 계속해서 훈련하는 데 필요한 엄청난 양의 처리 능력과 이러한 자원과 관련된 재정적 비용이다.
예를 들어, GPT-3는 초기에 45테라바이트의 데이터로 훈련되었으며 예측을 위해 1750억개의 매개변수를 사용했다. GPT-3에 대한 단일 훈련 실행 비용은 1200만달러에 이른다(Harvard Business Review, 2022.11).
구글과 같은 속도로 질문(query)을 처리하는 것이 목표라면 LLM의 높은 에너지 비용은 감당하기 어려울 것이다. 초당 수만달러 또는 하루에 수십억달러로 추정되는 어마어마한 비용이 소요되기 때문이다.
한 가지 가능한 해결책은 모델을 덜 자주 훈련하고 빠르게 바뀌는 주제를 다루는 검색 질문에 모델을 적용하지 않는 것이다.