OpenAI의 차세대 모델은 주요 병목 현상에 직면하고 전 수석 과학자가 새로운 기술 경로를 공개합니다.

OpenAI의 차세대 대용량 언어 모델 '오리온(Orion)'이 전례 없는 병목 현상에 직면했을 수도 있습니다.

더인포메이션에 따르면 OpenAI 내부 직원들은 오리온 모델의 성능 향상이 기대에 미치지 못했으며, GPT-3에서 GPT-4로 업그레이드한 것보다 품질 향상이 "훨씬 작았다"고 말했다.

또한 오리온은 특정 작업에서 이전 제품인 GPT-4보다 더 신뢰할 수 없다고 말했습니다. 오리온은 언어 능력이 뛰어나지만 프로그래밍 측면에서는 GPT-4를 능가하지 못할 수도 있다.

▲사진출처: 위테크

보고서는 훈련을 위한 고품질 텍스트와 기타 데이터의 공급이 줄어들고 있어 좋은 훈련 데이터를 찾기가 더 어려워지고 이로 인해 일부 측면에서 대규모 언어 모델(LLM) 개발이 지연되고 있다고 지적했습니다.

뿐만 아니라 향후 교육에는 더 많은 컴퓨팅 리소스, 재정 리소스, 심지어 전기도 소비됩니다. 이는 Orion 및 후속 대형 언어 모델을 개발하고 실행하는 데 드는 비용과 비용이 더 비싸진다는 것을 의미합니다.

OpenAI의 연구원인 Noam Brown은 최근 TED AI 컨퍼런스에서 더 발전된 모델이 " 경제적으로 타당 하지" 않을 수 있다고 말했습니다.

실제로 모델 교육에 수천억 또는 수조 달러를 소비해야 합니까? 어느 시점에서 팽창의 법칙이 무너집니다.

이에 OpenAI는 사전 훈련을 담당하는 Nick Ryder가 이끄는 기본 팀을 구성하여 훈련 데이터 부족 에 대한 대처 방법과 대형 모델의 확장 법칙이 얼마나 오래 지속될 것인지 연구했습니다.

▲노암 브라운

확장 법칙은 인공 지능 분야의 핵심 가정 입니다. 학습할 데이터가 더 많고 훈련 프로세스를 촉진하기 위한 컴퓨팅 능력이 더 많은 한 대규모 언어 모델은 동일한 속도로 성능을 계속 향상시킬 수 있습니다.

간단히 말해서 확장 법칙은 입력(데이터 볼륨, 컴퓨팅 성능, 모델 크기)과 출력 간의 관계, 즉 대규모 언어 모델에 더 많은 리소스를 투자할 때 성능이 향상되는 정도를 설명합니다.

예를 들어 대규모 언어 모델을 훈련하는 것은 작업장에서 자동차를 만드는 것과 같습니다 . 처음에 작업장은 소규모였으며 기계 몇 대와 작업자 몇 명만 있었습니다. 이때 새로운 자원이 생산 능력의 증가로 직접 전환되기 때문에 기계나 작업자가 추가될 때마다 생산량이 크게 증가할 수 있습니다.

공장의 규모가 커짐에 따라 추가되는 기계 또는 작업자의 생산량 증가는 감소하기 시작합니다. 경영이 복잡해졌을 수도 있고, 직원들 간의 조율이 어려워졌을 수도 있다.

공장이 특정 규모에 도달하면 더 많은 기계와 작업자를 추가해도 생산량은 매우 제한된 범위에서만 증가할 수 있습니다. 이 시점에서 공장은 토지, 전력 공급, 물류 등의 한계에 접근할 수 있으며 투입 증가는 더 이상 비례적인 생산량 증가를 가져올 수 없습니다 .

그리고 여기에 오리온의 딜레마가 있습니다. 모델의 크기가 증가함에 따라(기계 및 작업자를 추가하는 것과 유사) 모델의 성능 향상은 초기 및 중기적으로 매우 분명해질 수 있습니다. 그러나 이후 단계에서는 모델 크기나 훈련 데이터의 양이 계속 증가하더라도 성능 향상은 점점 작아질 수 있습니다. 이것이 소위 " 벽에 부딪히는 현상"입니다.

arXiv에 발표된 최근 논문에서도 공용 인간 텍스트 데이터에 대한 수요가 증가하고 기존 데이터의 양이 제한되어 있어 대규모 언어 모델 개발에 2026년에서 2032년 사이에 현재 자원이 고갈될 것으로 예상된다고 밝혔습니다. 인간의 텍스트 데이터 자원.

▲이미지 출처 : arXiv

Norm Brown은 미래 모델 훈련의 "경제적 문제"를 지적하면서도 여전히 위의 관점에 반대했습니다. 그는 “ 인공지능의 발전은 조만간 둔화되지 않을 것 ”이라고 믿는다.

OpenAI 연구원들은 대체로 이에 동의합니다. 그들은 모델의 확장 법칙이 느려질 수 있지만 추론 시간 최적화 및 훈련 후 개선이 AI의 전반적인 개발에 영향을 미치지 않을 것이라고 믿습니다.

또한 Meta의 Mark Zuckerberg CEO, OpenAI의 Sam Altman 및 기타 AI 개발자들은 아직 전통적인 확장 법칙의 한계에 도달하지 않았으며 사전 학습된 모델의 성능을 높이기 위해 여전히 값비싼 데이터 센터를 개발하고 있다고 공개적으로 밝혔습니다.

▲샘 알트만 (출처: Vanity Fair)

OpenAI의 제품 담당 부사장인 Peter Welinder도 소셜 미디어에서 "사람들은 테스트 중에 컴퓨팅 의 성능을 과소평가한다"고 말했습니다.

테스트 시간 계산(TTC)은 모델이 배포된 후 새로운 입력 데이터를 추론하거나 예측할 때 수행되는 계산을 나타내는 기계 학습의 개념입니다. 이는 모델이 데이터의 패턴을 학습하고 예측하는 모델 학습 단계의 계산과는 별개입니다.

기존 기계 학습 모델에서는 모델이 훈련되고 배포되면 일반적으로 새로운 데이터 인스턴스를 예측하기 위해 추가 계산이 필요하지 않습니다. 그러나 특정 유형의 딥 러닝 모델과 같은 일부 더 복잡한 모델에서는 테스트 시간(예: 추론 시간)에 추가 계산이 필요할 수 있습니다.

예를 들어 OpenAI가 개발한 "o1" 모델은 이 추론 모델을 사용합니다. 실제로 AI 업계 전체는 초기 훈련 이후 모델을 개선하는 모델로 초점을 옮기고 있다.

▲피터 웰린더(출처: Dagens industri)

이와 관련하여 OpenAI의 공동 창립자 중 한 명인 Ilya Sutskever는 최근 로이터와의 인터뷰에서 대량의 라벨링되지 않은 데이터를 사용하여 인공 지능 모델을 훈련시켜 언어 패턴과 구조를 이해함으로써 사전 훈련 단계에서 효과 개선이 안정화 되었습니다.

Ilya는 "2010년대는 확장의 시대였고 이제 우리는 탐험과 발견의 시대로 돌아왔습니다."라고 Ilya는 말했습니다. " 올바른 규모로 확장하는 것이 그 어느 때보다 중요합니다."

오리온은 2025년 발사를 목표로 하고 있다. OpenAI는 이를 "GPT-5" 대신 "Orion"으로 명명했는데, 이는 새로운 혁명을 암시할 수 있습니다. 이론적 한계로 인해 일시적으로 '출산이 어렵다'고는 하지만, 대형 AI 모델에 새로운 기회를 가져올 수 있는 새로운 이름의 '신생아'가 여전히 기대된다.

# Aifaner: Aifaner(WeChat ID: ifanr)의 공식 WeChat 공개 계정을 팔로우하신 것을 환영합니다. 더 흥미로운 콘텐츠가 최대한 빨리 제공될 예정입니다.

Ai Faner | 원본 링크 · 댓글 보기 · Sina Weibo


게시됨

카테고리

작성자

태그: