ChatGPT가 인간의 언어를 말할 수 있게 되면 인터넷의 AI 오염은 더욱 심각해질 것입니다.

인간이 가장 두려워하는 일이 일어났습니다.

인터넷에서 몇 가지 뉴스 기사를 무작위로 읽었지만 그것이 AI가 만든 것인지 인간이 만든 것인지 알 수 없습니다.

생방송실에서는 디지털 연예인들이 스스로 닭발을 빨아들이는가 하면, 소리를 지르던 실제 조력자들과 분리되는 장면을 연출했는데…

외신 404미디어에 따르면 원래 다국어에서 다양한 단어와 어휘의 인기도와 사용 빈도를 추적하고 분석하는 데 사용되었던 프로젝트인 Wordfreq가 이제 최신 피해자가 되었습니다.

태양이 비치는 곳에는 언제나 그림자가 숨어 있으며, Wordfreq이 첫 번째 희생자도 마지막 희생자도 아닐 것이 분명합니다.

즉, 궁극적으로 비용을 지불하는 것은 인간 자신일 수도 있습니다.

GPT는 언어를 오염시키고 인간은 그에 대한 대가를 치러야 합니다

“제너레이티브 AI가 데이터를 오염시켰고, 2021년 이후에는 인간의 언어 사용에 대한 신뢰할 만한 정보를 가진 사람이 아무도 없다고 생각합니다.”

Wordfreq 프로젝트의 창립자인 로빈 스피어(Robin Spear)의 마음에서 우러나오는 이 외침은 약간의 무력감과 분노를 드러냅니다.

그 이유를 알아보기 위해서는 Wordfreq의 유래부터 살펴봐야 합니다.

Wordfreq는 Wikipedia, 영화 및 TV 자막, 뉴스 보도, Reddit과 같은 웹사이트의 콘텐츠를 분석하여 40개 이상의 언어 진화를 추적한 다음 속어 및 대중 문화 변화에 따라 변화하는 언어 습관을 연구합니다.

Wordfreq는 언어학자, 작가, 번역가를 위한 보물창고입니다. 그러나 이제 GitHub 주소에 "이 프로젝트는 더 이상 업데이트되지 않습니다"라는 큰 성명이 슬프게도 이 프로젝트의 죽음을 알리고 있습니다.

과거에는 웹에서 공개 데이터를 스크랩하는 것이 프로젝트 데이터 소스의 생명선이었지만, 생성 AI의 등장으로 AI 텍스트가 대중화되었습니다.

Spear는 과거에 "delve"라는 단어를 거의 사용하지 않았습니다. 그러나 ChatGPT가 이 단어를 만트라로 바꾸면서 Li Gui는 때때로 단어 빈도 통계에 영향을 미쳤습니다. 인간의 언어 습관을 정확하게 분석합니다.

이것이 충분히 직관적이지 않다면, "요약하다", "요약하다"와 같은 진부한 표현의 확산이 가장 눈에 띄는 경고입니다.

이러한 경향은 점차 학문적 글쓰기는 물론 문학 창작에도까지 침투하고 있다.

스탠포드 대학의 보고서에 따르면 ChatGPT는 단 5개월 만에 많은 전문가와 학자들에게 '글을 쓰는 인공물'이 되었습니다. 그 중 컴퓨터공학 분야에서는 거의 6개의 초록과 7개의 서론을 모두 그가 썼다.

다음은 생성 AI에 의한 인간 글쓰기 스타일의 "대규모 침입"입니다.

이탈리아 국제고등연구소의 박사과정 학생인 Geng Mingmeng의 연구 결과는 마치 거울과도 같아서 ChatGPT의 단어 선호도를 더욱 반영하고 학술 논문 작성에 미치는 영향을 충분히 확인시켜 주었습니다.

Geng Mingmeng은 arXiv에서 백만 개 이상의 논문 초록을 분석한 후 ChatGPT의 인기 이후 논문의 단어 빈도가 크게 변했다는 사실을 발견했습니다. 이 가운데 '중요하다' 등의 단어 사용 빈도는 크게 늘어난 반면, 'is', 'are' 등 단어 사용 빈도는 약 10% 감소했다.

대부분의 경우 생성적 AI는 창의성 점수가 60점인 사람을 70점 이상으로 바꿀 수 있다. 그러나 텍스트 작성에서는 개인의 창의성과 글쓰기 품질이 향상되었지만 집단적 창의성은 눈에 띄지 않게 줄어들고 균질화되었다. .

UCL과 엑서터 대학의 두 학자는 500명의 참가자에게 AI를 사용하여 무작위 주제에 대해 약 8줄의 이야기를 쓰고 대상 청중을 분석하도록 배정된 연구를 Science에 발표했습니다.

결과는 AI 영감의 도움으로 스토리가 더욱 '창의적'이 된 것으로 나타났지만, 이들 AI가 만들어내는 스토리 역시 놀랍게도 서로 유사했다.

따라서 생성 AI 텍스트가 만연한 오염 물질처럼 인터넷에 넘쳐날 때 Wordfreq과 인간에게는 이점이 단점보다 훨씬 큽니다.

크롤러 방지 전쟁이 시작되고 Wordfreq이 어려움을 겪습니다.

Wordfreq 프로젝트의 종료는 거대 크롤러 전쟁에 휘말린 피해자라고 볼 수 있습니다.

AI의 개발은 알고리즘, 컴퓨팅 성능 및 데이터의 지원과 분리될 수 없습니다. AI가 생성한 텍스트와 실제 인간 언어 사이에는 여전히 격차가 있지만 문법과 논리 측면에서는 점점 괜찮아지고 있습니다.

이 잔잔한 물 속에서 AI 크롤링과 크롤링 방지 간의 조용한 전쟁이 벌어지고 있습니다.

현재 여론 환경에서 웹 페이지 데이터를 크롤링하는 것은 세계적으로 금기가 된 것 같습니다. 많은 뉴스 보도 댓글 영역은 네티즌의 경멸의 목소리로 가득 차 있으며 Wordfreq는 본질적으로 다른 언어로 된 텍스트를 크롤링하여 구축되었습니다. .

제너레이티브 AI가 아직 대중화되지 않았을 때, Wordfreq도 허니문 기간을 보냈습니다.

과거에는 일반적으로 웹사이트의 robots.txt 파일 규정을 준수하는 한 공개 데이터를 크롤링하는 것이 합리적으로 보였습니다. 이는 웹사이트와 크롤러 사이의 암묵적인 합의로, 크롤링할 수 있는 콘텐츠와 크롤링할 수 없는 콘텐츠를 크롤러에게 지시하는 데 사용됩니다.

웹사이트에서 robots.txt 제한 계약을 설정하는 것은 침입 금지 표지판을 게시하는 것과 같습니다. 크롤러가 robots.txt 계약을 위반하거나 웹사이트의 크롤러 방지 기술을 뚫고 데이터를 얻는 방법을 사용하는 경우 불공정 경쟁이나 저작권 침해 및 기타 불법 행위가 될 수 있습니다.

그러나 고품질 데이터에 대한 모델의 요구가 증가함에 따라 크롤링과 크롤링 방지 간의 전쟁이 점점 치열해지고 있습니다.

과거를 돌이켜보면 생성형 AI 거대 크롤러와 크롤러 방지 데이터를 두고 논란이 많았습니다. 가장 눈에 띄는 것은 당연히 OpenAI와 Google입니다.

작년에 OpenAI는 웹 크롤러 도구 GPTBot을 출시하여 AI 모델을 훈련하기 위해 웹 페이지 데이터를 크롤링하는 데 사용된다고 주장했습니다. 그러나 분명히 어떤 미디어도 크롤러에 의해 비밀리에 수집되기를 원하지 않습니다.

데이터와 저작권의 중요성을 인식하는 미디어는 돈을 한 손에, 데이터를 한 손에 넘겨주는 비즈니스 논리를 따릅니다.

로이터 연구소가 실시한 연구에 따르면 2023년 말 현재 전 세계 10개국 인기 뉴스 웹사이트 중 거의 절반이 OpenAI의 크롤러(Crawler)를 차단했으며, 거의 4분의 1의 웹사이트도 Google을 차단한 것으로 나타났습니다. 크롤러도 동일한 조치를 취합니다.

이어지는 이야기는 모두가 잘 알고 있을 것이다. OpenAI는 며칠에 한 번씩 전통 언론에 의해 소송을 당했는데, 예외 없이 저작권 소송이었다. 소송에 휩싸인 OpenAI는 올해가 되어서야 뉴스 출판사와 파트너십을 맺었습니다.

그러나 높은 벽과 데이터 요금과 같은 이전 전략도 Wordfreq을 이러한 "데이터 부족"의 희생자로 만들었습니다.

Spear는 Twitter와 Reddit(Wordfreq에 포함된 사이트)이 API에 대한 비용을 청구하기 시작한 이후로 웹을 스크레이핑하기가 더 어려워졌다고 지적합니다.

Spear는 "과거에는 무료였던 정보가 비싸졌습니다"라고 썼습니다. “생성 AI와 혼동될 수 있거나 생성 AI의 이점을 누릴 수 있는 작업에는 참여하고 싶지 않습니다.”

돈으로 데이터를 교환할 수 있어도 결국 데이터는 다 소모됩니다.

리서치 회사인 에포크 AI(Epoch AI)는 인터넷에서 이용할 수 있는 고품질 텍스트 데이터가 2028년이면 고갈될 수 있다고 예측한다. 업계에서는 이런 현상을 '데이터 벽'이라고 부르며, AI 발전을 늦추는 데 가장 큰 장애물이 될 수 있다.

그 결과, 많은 대형 모델 제조업체들이 AI를 활용하여 AI를 훈련시키는 데 초점을 맞추면서 합성 데이터에 관심을 돌리기 시작했습니다.

AI를 사용하여 AI를 훈련하면 더 많이 연습할수록 AI가 "멍청"해질 수 있습니다.

내 직감으로는 인터넷에 있는 텍스트는 헛소리이며, 이 데이터에 대한 교육은 컴퓨팅 성능의 낭비라는 것입니다.

Llama 3.1-405B가 판을 뒤집는 힘으로 수많은 대형 오픈소스 모델을 휩쓸었을 때, Llama 시리즈를 이끌고 있는 Meta AI 연구원 Thomas Scialom이 한 인터뷰에서 이렇게 말했습니다.

그에 따르면 Llama 3의 훈련 과정은 사람이 작성한 답변에 의존하지 않고 전적으로 Llama 2에서 생성된 합성 데이터를 기반으로 합니다.

Scialom의 진술은 너무 조잡할 수도 있지만 거기에는 어느 정도 진실이 있습니다.

매일 인터넷에는 꾸준한 데이터 흐름이 등장하지만 AI 훈련은 항상 객관식 문제였습니다. 데이터가 오류와 노이즈로 가득 차 있다면 모델은 자연스럽게 이러한 "결함"과 예측의 정확성을 학습하게 됩니다. 그리고 분류도 상상할 수 있습니다.

더욱이 품질이 낮은 데이터는 편향으로 가득 차 있는 경우가 많으며 전체 데이터 분포를 제대로 표현할 수 없어 모델이 편향된 응답을 생성하게 됩니다. 유네스코 사무총장 Azoulay도 다음과 같이 경고했습니다.

"새로운 AI 도구는 수백만 명의 사람들의 인식을 무의식적으로 바꿀 수 있는 힘을 가지고 있으므로 생성된 콘텐츠에 최소한의 성별 편견이라도 실제 불평등을 크게 악화시킬 수 있습니다."

그러나 합성 데이터는 '데이터 벽' 문제를 해결하는 만병통치약이 아닐 수도 있다.

최근 옥스퍼드와 케임브리지 연구진은 AI가 생성한 데이터 세트를 모델에 사용할 때 출력 품질이 점차 저하되어 결국 의미 없는 콘텐츠가 생성된다는 사실을 발견했는데, 이를 일반적으로 모델 붕괴라고 합니다.

연구 리더인 Ilia Shumailov는 사진 촬영에 비유하여 과정을 설명했습니다.

사진을 찍고, 스캔하고, 인쇄하고, 사진을 찍고, 시간이 지나면서 이 과정을 반복하게 되면 기본적으로 전체 과정은 "노이즈"에 묻혀버리게 됩니다. 마지막에는 어두운 사각형이 나타납니다.

AI가 생성한 스팸 웹페이지가 점점 더 많아져 인터넷에 범람하기 시작하면 AI 모델 훈련을 위한 원자재도 오염될 것입니다.

예를 들어 프로그래머를 위한 Q&A 커뮤니티인 Stack Overflow는 AI의 영향을 많이 받았습니다.

ChatGPT가 처음 인기를 얻었을 때 Stack Overflow는 "일시적 금지"를 발표했습니다. 관계자는 성명을 통해 "ChatGPT에서 얻은 정답의 평균 비율이 너무 낮다"고 불만을 토로했다.

결국 전문 사용자의 수는 제한되어 있고 모든 답변을 일일이 검증하는 것은 불가능하며 ChatGPT의 오류율은 명백합니다. AI가 커뮤니티 환경을 오염시키면, 그 당시 할 일이 없는 인간은 이를 금지할 수 밖에 없다.

이미지 분야에서 AI 모델은 가장 일반적인 데이터를 재현하는 경향이 있어, 많은 반복을 거치면 결국 원본조차 잊어버릴 수도 있습니다.

이 모든 것은 악순환을 의미합니다. AI는 인간의 데이터와 혼합되어 품질이 낮거나 잘못된 정보를 생성합니다. 이러한 일반적으로 품질이 낮은 데이터는 AI에 의해 반복적으로 공급되어 결국 만연한 AI가 스스로 역효과를 낳게 됩니다.

그리고 인간이 과거의 데이터 발자국이 스스로의 자양분이 될 것이라는 사실을 깨닫게 된다면, 아마도 우리는 인터넷에 남기는 모든 말에 더욱 주의를 기울이게 될 것입니다.

# Aifaner: Aifaner(WeChat ID: ifanr)의 공식 WeChat 공개 계정을 팔로우하신 것을 환영합니다. 더 흥미로운 콘텐츠가 최대한 빨리 제공될 예정입니다.

Ai Faner | 원본 링크 · 댓글 보기 · Sina Weibo