AI 챗봇 2026년 학습자료 고갈로 성능 향상 둔화 전망, 데이터값 비싸진다

▲ 5일 대만 타이베이에서 열린 국제 컴퓨터 박람회(COMPUTEX)에서 한 방문객이 인공지능 데이터 관련 시각 구조물을 촬영하고 있다. <연합뉴스>

[비즈니스포스트] 오픈AI나 메타와 같은 빅테크 기업들이 한정된 공개 정보만 가지고 인공지능(AI) 챗봇 고도화 경쟁을 벌이고 있어 조만간 학습 데이터 부족 현상을 겪을 것이라는 전망이 나온다. 

빅테크가 언론사 및 온라인 커뮤니티 기업들에 콘텐츠 사용료를 내는 추세가 뚜렷해지고 있는 가운데 데이터 ‘병목 현상’을 극복하지 못하면 생성형 AI 기술 자체가 타격을 입을 수 있다는 관측도 제기된다.

7일 경제전문지 포천은 연구기관인 에포크AI의 보고서를 인용해 “구글과 메타, 오픈AI 등 빅테크에서 이르면 2026년부터 AI 언어 모델을 학습시킬 수 있는 공개 데이터가 소진될 것”이라고 보도했다. 

데이터 연산 작업을 맡는 컴퓨팅 파워가 매년 4배 규모로 성장하는 반면 AI 훈련에 사용하는 데이터 증가 속도는 이를 밑도는 2.5배에 그친다는 점이 근거로 제시됐다. 

거대 언어모델(LLM)에 기반한 AI 챗봇은 일반적으로 공개된 온라인 텍스트 데이터를 기계학습(머신러닝)하는 식으로 개발된다. 

더 많은 데이터로 학습할수록 결과값 정확도가 높아지고 사람의 언어와 유사한 형태로 답할 확률이 높아지는 것으로 알려졌다. 

그런데 막대한 학습 데이터 수요에 비해 기존에 축적된 데이터 및 새로 공급되는 자료가 크게 부족해 잠재적인 리스크로 작용할 수 있다는 분석이 나온 것이다. 

에포크AI 연구진의 일원인 타마이 베시로글루 연구원은 “데이터는 희소성 높은 금과 같다”라며 “빅테크의 데이터 확보 노력을 ‘골드러쉬’라고 불러도 무방할 정도”라고 말했다. 

한정된 자원을 확보하기 위해 다수의 기업들이 몰리는 상황이 1850년대 미국 사람들이 너도나도 금광을 찾아 나섰던 상황과 다르지 않다는 의미다. 

더구나 양질의 데이터는 더욱 부족한 것으로 나타났다.

IT 전문매체 벤처비트는 메사추세츠 공과대학(MIT)의 LLM 개발을 소개한 기사에서 “정교한 언어 모델을 만드려면 뉴스 기사나 과학 논문과 같은 고품질 정보들이 필요한데 이들이 갈수록 부족해지는 상황”이라고 짚었다.
 
AI 챗봇 2026년 학습자료 고갈로 성능 향상 둔화 전망, 데이터값 비싸진다

▲ 3월21일 기업공개를 앞둔 레딧의 로고가 미국 뉴욕증권거래소(NYSE) 중앙 화면에 띄워져 있다. 온라인 커뮤니티인 레딧은 구글과 오픈AI에 AI 챗봇 학습 데이터를 판매하는 계약을 맺었다. <연합뉴스>

최근 인공지능 학습 데이터를 두고 각국에서 저작권법 규제가 강화되는 추세는 상황을 더욱 악화시킬 수 있다. 

빅테크들은 주로 인터넷상 데이터를 사용료를 내지 않고 임의로 긁어다가(크롤링) 사용했는데 이를 가지고 언론사 등에서 적극적으로 소송을 거는 모습도 나타난다. 

생성형 인공지능이 결과값을 내는 형태가 텍스트를 넘어 이미지와 영상으로 확장되면서 이러한 문제는 더욱 뚜렷해질 공산이 크다. 

이는 빅테크 기업들의 인공지능 사업 성장은 물론 생성형 인공지능 기술의 발전 자체에 위험 요인이 될 것으로 예상된다.

오픈AI가 뉴스코프 같은 주요 언론사 및 인터넷 커뮤니티 레딧 등에 수억 달러 규모의 콘텐츠 유료 사용계약을 맺은 것은 이런 상황에 비용을 들여 대응할 수밖에 없다는 점을 보여주는 대표적 사례다.

빅테크들은 외부 콘텐츠 공급자를 찾는 방안 외에 다른 대안들도 모색하고 있다. 

월스트리트저널에 따르면 메타는 페이스북과 인스타그램 등 자체 소셜네트워크(SNS) 플랫폼에 공유되는 자료를 활용하겠다는 계획을 세웠다.

구글과 오픈AI 또한 학습을 위한 데이터를 창출하는 시장 자체를 구축하고자 시도하는 것으로 전해졌다.  

상대적으로 적은 규모의 데이터만 가지고 학습해서 특정 영역에 특화된 언어 모델을 만드는 시도도 나온다. 

샘 올트먼 오픈AI 최고경영자(CEO)는 "AI 모델 학습에 다방면으로 해결책 찾고 있다"며 “큰 언어모델 구축으로는 점점 더 한계가 있다”라고 언급했다. 

결국 데이터 부족으로 생성형 인공지능 서비스들의 개발이 정체되는 병목 현상에 대응하기 위해 학습 데이터 성격과 발전 방식에 따라 서비스별로 품질에 차이가 발생할 것으로 예상된다. 

데이터의 출처나 품질 등이 업체별로 달라지면서 시장에서 생성형 인공지능 차별화를 위해 ‘양보다 질’ 위주의 경쟁 판도가 벌어질 가능성도 나온다.

빅테크들이 ‘데이터 보릿고개’를 효과적으로 극복할 방안을 찾지 못하면 시장 자체가 발전에 한계를 맞는다는 부정적 시각도 만만치 않다.

게임 체인저라는 기대와 달리 고비용과 유사한 서비스의 난립으로 결국에는 성장 동력이 끊긴 기술로 남을 수도 있다는 이야기다. 

호주에 본사를 둔 AI 전문 기업 에이펜은 데이터 병목 현상을 분석한 글을 통해 “데이터 공급이 줄어들면 산업 전체의 성장에 악영향을 미칠 수 있다”라고 바라봤다. 이근호 기자