[생성형 AI(Generative AI), 인간의 창작 영역을 넘본다! (9)] 내가 만든 콘텐츠로 생색내고 부(富) 챙기는 AI 테크기업들, 더는 두고 볼 수 없다? (下)
최봉 산업경제 전문기자 입력 : 2023.02.28 00:30 ㅣ 수정 : 2023.02.28 00:38
[기사요약] ‘착취적인 역학관계’, 하지만 ‘우리’는 막강한 ‘데이터 영향력’ 갖고 있어.. 4가지 방법의 데이터 영향력: 직접 조치, 규제 조치, 법적 조치, 시장 조치 여러 조치는 Generative AI 기업에도 도움 될 것, 건강한 콘텐츠 생태계 공유해야 하기 때문 콘텐츠 제작자인 ‘우리’와 Generative AI 기업, 윈-윈 전략 모색해야 할 중요한 시점
사람들은 시, 소설, 보고서 등 글쓰기, 그림 그리기, 알고리즘 코딩 등 창작의 세계가 그동안 인간에게만 허락된 별도의 영역이라 알고 있었다. 그런데 AI(인공지능)의 발전과 함께 이제는 진화한 AI가 스스로 창작의 영역을 넘보는 시대가 되었다. 생성형 AI(Generative AI)의 등장은 인간에게 어떤 의미가 있으며 우리의 미래에 어떤 영향을 미칠지 가늠하기 쉽지 않지만, 생성형 AI는 이미 여러 분야에서 현실로 나타나 적용되고 있다. 우리에게 성큼 다가온 생성형 AI의 시장현황, 다양한 이슈와 관심 사항 등을 살펴보기로 하자. <편집자 주>
[뉴스투데이=최봉 산업경제 전문기자] 빅테크를 포함한 기술기업들은 지난 수년 동안 데이터 훈련(training) 또는 학습(learning)이라는 명목으로 나와 당신이 만든 우리의 콘텐츠를 무료로 사용하면서 AI를 발전시켜왔다.
이러한 ‘착취적인 역학관계’는 생성형 AI(Generative AI) 도래와 함께 콘텐츠 제작자에게 더 큰 피해를 줄 수 있다는 내용을 지난 편(2023년 2월 21일)에서 소개한 바 있다.
• AI 기술기업 비해 불리한 콘텐츠 제작자, 하지만 ‘데이터 영향력’ 행사할 수 있어..
하지만 ‘약자’라고 생각할 수 있는 우리의 입장이 반드시 부정적이지만은 아닌 것 같다. 이러한 불리할 듯한 역학 관계는 데이터를 생성하는 우리가 많은 권한을 가지고 있음을 의미하기도 한다.
최근 미국 노스웨스턴대학교(Northwestern University)에서 박사학위를 취득한 두 학자의 연구에 따르면, 대중은 신기술을 생성하고 이러한 기술의 이점을 해당기술을 만든 사람들과 공정하게 공유하는 AI 생태계를 만드는 데 사용할 수 있는 엄청난 양의 ‘데이터 영향력(data leverage)’을 가지고 있다고 한다.
데이터 영향력은 최소 4가지 방법, 즉 직접 조치(direct action), 규제 조치(regulatory action), 법적 조치(legal action) 그리고 시장 조치(market action)를 통해 행사할 수 있다(Wired, 2023.1.28.).
• 즉시 수행 가능한 직접 조치, AI 시스템의 정보입수 경로를 제한한다
첫째, 직접 조치는 즉시 수행할 수 있기 때문에 특히 흥미로운 방식이라 하겠다.
Generative AI 시스템은 웹 스크레이핑(web scraping, 웹에 있는 온갖 정보 그러모으기)에 의존하기 때문에 웹사이트 소유자는 ‘robots.txt 파일’(웹 검색 프로그램에 한도를 벗어난 페이지를 알려주는 파일)을 구성하여 스크레이핑을 금지하거나 제한함으로써 훈련 데이터의 정보입수 경로를 크게 방해할 수 있다.
위키피디아, 레딧(Reddit)과 같은 대규모 사용자 생성 콘텐츠 사이트는 Generative AI 시스템에 특히 중요한데, 이들 사이트는 더 강력한 방식(예를 들면, IP 트래픽 및 API 액세스를 차단함)으로 AI 시스템이 콘텐츠에 액세스하지 못하도록 막을 수 있다. 트위터(Twitter)가 최근에 이 방식을 수행했다.
당신의 동의 없이 콘텐츠가 사용되었을 때 단순히 (항의의)목소리를 높이는 것도 나름 효과적이다.
예를 들어 스테이블 디퓨전(Stable Diffusion)을 제공하고 있는 StabilityAI는 ‘콘텐츠 무단사용’과 관련한 소셜 미디어 소란 이후 ‘haveibeentrained.com’을 통해 수집된 콘텐츠 제작자의 기피(opt-out) 요청을 존중하기로 동의했다.
이에 따라 작가들은 ‘haveibeentrained.com’에서 자신의 작품에 대한 이용 여부를 제시할 수 있다.
• '우리'의 소유 권한 목소리 높일 수 있는 다양한 규제 및 법적 조치 가능
둘째, 규제 조치 측면에서, 법률제정자들은 역사상 가장 큰 ‘노동절도’가 될 수도 있는 Generative AI의 활동으로부터 콘텐츠 제작자를 보호하기 위한 조치를 신속하게 취해야 한다.
이를 위해 가장 좋은 방법 중 하나는 저작권법에 따른 ‘공정한 사용’이 콘텐츠 소유자의 동의 없이 최소한 상업적인 목적으로 콘텐츠에 대한 모델 훈련을 허용하지 않는다는 점을 명확히 하는 것이다.
또한 동의하지 않은 데이터로 훈련된 모델이 불쾌감을 주는 콘텐츠 없이 합당한 시간 내에 재훈련되어야 한다는 것을 분명히 하는 ‘데이터 세탁 방지’ 법률 제정을 위해 노력해야 한다.
그리고 지능형 기술로 생성된 부를 재분배하는 ‘데이터 배당(data dividend)’ 법률에 대한 필요성도 탄력을 받고 있다.
셋째, 법적 조치 측면에서, 법원은 사람들이 자신의 콘텐츠에 대한 통제권을 되찾을 수 있는 방법을 제시하고 있다.
링크드인(LinkedIn)은 사용약관과 계약법을 통해 웹사이트를 스크레이핑하는 사람들을 성공적으로 방지했다. 노동법은 또한 콘텐츠 제작자에게 권한을 부여할 수 있는 관점을 제공할 수 있다.
역사적으로, 기업이 사업을 운영하기 위해 ‘자원봉사자’에 의존하는 것은 이러한 기업이 공정근로기준법을 위반했는지에 대한 중요한 의문을 제기했다.
이 같은 논란은 지금의 Generative AI 관련 ‘무료 기여’ 문제에 의미 있는 방향타가 될 수 있다. 과거에 일부 자원봉사자들은 자신의 업무로 인해 혜택을 받은 기업과 법적 합의에 도달하기도 했다.
넷째, 시장 조치도 중요한 역할을 할 것이다.
기술기업들이 사용한 콘텐츠에 대해 크리에이터에게 비용을 지불하는 ‘완전동의 LLM(Large Language Models)’을 정부, 기관 및 개인이 요구하면, 기업들은 긍정적으로 응답할 것이다.
이러한 수요는 사용자에게 비용을 지불하지 않고 Generative AI를 사용하는 조직에 대한 성공적인 소송으로 더욱 강화될 수 있다.
• 콘텐츠 제작자인 ‘우리’와 기술기업 간 윈-윈 전략 모색 필요
위에서 제시한 여러 조치는 실제로 Generative AI 기업에도 피해가 아닌 도움이 될 것으로 판단한다. 왜냐하면 건강한 콘텐츠 생태계가 없으면 Generative AI 기술이 세상을 배우기 위해 의존하는 콘텐츠가 사라질 것이기 때문이다.
챗GPT(ChatGPT)에서 답을 얻었기 때문에 아무도 위키피디아, 레딧, 트위터 등에 들어가지 않는다면 챗GPT는 더이상 어떻게 학습하면서 진화할 수 있겠는가?
콘텐츠 제작자인 ‘우리’와 활용자인 Generative AI 기업 간 윈-윈 전략 모색이 더욱 중요한 시점이다.