Nvidia가 Netflix와 YouTube에서 AI 데이터를 스크랩하는 것을 다시 적발했다고 합니다.

내부 Slack 채팅, 이메일 및 아웃렛에서 입수한 문서를 바탕으로 한 404 Media의 끔찍한 보고서 에 따르면, Nvidia는 "매일 교육 데이터에 해당하는 인간의 평생 시각적 경험"을 제공했다고 부사장 Ming-Yu Liu는 말했습니다. Nvidia와 Cosmos 프로젝트 리더의 연구 결과가 5월 이메일에서 인정되었습니다.

이름이 알려지지 않은 전 Nvidia 직원은 회사의 다양한 AI 제품에 사용할 교육 데이터를 얻기 위해 Netflix, YouTube 및 기타 온라인 소스에서 비디오 콘텐츠를 스크랩하라는 요청을 받았다고 404에 말했습니다. 여기에는 Nvidia의 Omniverse 3D 세계 생성기, 자율 주행 자동차 시스템 및 "디지털 휴먼"이 포함됩니다.

직원들이 내부적으로 Cosmos라고 명명된 프로젝트의 적법성에 대해 물었을 때 경영진은 해당 콘텐츠를 사용하도록 회사의 최고위급으로부터 허가를 받았다고 확신했습니다.

이 프로젝트는 Gemini 1.5 , GPT-4 또는 Llama 3.1 과 유사한 기초 모델을 구축하고자 했습니다. 이 모델은 "Nvidia에 중요한 다양한 다운스트림 애플리케이션을 잠금 해제하기 위해 빛 전송, 물리학 및 지능의 시뮬레이션을 한곳에 캡슐화합니다."

이를 위해 프로젝트 Cosmos는 오픈 소스 비디오 다운로더를 사용하고 IP 홉에 대한 기계 학습을 사용하여 YouTube의 차단 시도를 피한 것으로 알려졌습니다. 404가 본 이메일에 따르면 프로젝트 관리자는 Amazon Web Services에서 실행되는 최대 30개의 가상 머신을 사용하여 매일 80년 분량의 전체 길이 및 클립 길이의 비디오를 다운로드하는 것에 대해 논의했습니다.

엔비디아는 어떠한 잘못도 없다고 주장합니다. Nvidia 대변인은 이메일을 통해 404 Media에 "우리는 모든 콘텐츠 제작자의 권리를 존중하며 우리의 모델과 연구 노력이 저작권법의 조항과 정신을 완전히 준수한다고 확신합니다."라고 말했습니다. “저작권법은 특정 표현을 보호하지만 사실, 아이디어, 데이터 또는 정보는 보호하지 않습니다. 누구나 다른 출처로부터 사실, 아이디어, 데이터 또는 정보를 자유롭게 학습하고 이를 사용하여 자신만의 표현을 만들 수 있습니다. 공정한 사용은 또한 모델 훈련과 같은 변형적 목적을 위해 저작물을 사용할 수 있는 능력도 보호합니다.”

CES 2024에서 회사는 게임 엔진을 위한 새로운 생성 AI가 어떻게 훈련되었는지 에 대한 모호한 답변으로 인터넷 폭풍을 일으켰습니다. 이에 대해 엔비디아는 자사 도구가 " 상업적으로 안전하다 "고 거듭 강조했습니다.