OpenAI, 최강 모델 o1 출시! AI 병목현상 깨고 새 시대 열어갈 GPT-5는 영영 오지 않을 수도

아무런 예고도 없이 OpenAI는 갑자기 OpenAI o1 시리즈 모델을 출시했습니다. 공식 기술 블로그에 따르면 o1은 추론 능력 측면에서 가장 강력한 수준의 인공 지능을 나타냅니다.

OpenAI CEO 샘 알트만(Sam Altman)은 “OpenAI o1은 범용 복합 추론을 수행할 수 있는 AI라는 새로운 패러다임의 시작”이라고 말했다.

이 새로운 모델은 복잡한 추론 작업에서 중요한 혁신이며 새로운 수준의 AI 기능을 나타냅니다. 이를 바탕으로 OpenAI는 이 시리즈의 이름을 OpenAI o1로 변경하고 처음부터 집계를 시작하기로 결정했습니다.

이것이 GPT-5라는 이름이 더 이상 나타나지 않는다는 뜻인지 모르겠습니다.

새 모델의 기능을 간략하게 요약하면 다음과 같습니다.

OpenAI o1: 강력한 성능으로 다양한 분야의 복잡한 추론 작업을 처리하는 데 적합합니다.
OpenAI o1 mini: 비용 효율적이며 추론이 필요하지만 광범위한 세계 지식이 필요하지 않은 애플리케이션에 적합합니다.

이제 모델이 완전히 푸시되었으며 ChatGPT 웹 클라이언트 또는 API를 통해 액세스할 수 있습니다.

그중 o1-preview는 아직 프리뷰 버전이며, OpenAI는 계속해서 다음 버전을 업데이트하고 개발할 예정입니다. 현재 특정 사용 제한이 있습니다. o1-preview에는 주당 30개의 메시지가 있고 o1-mini에는 주당 50개의 메시지가 있습니다.

소문난 '스트로베리(Strawberry)'처럼 이 새로운 AI 모델은 복잡한 작업에 대해 추론하고 과학, 코딩, 수학 분야에서 이전보다 더 어려운 문제를 해결할 수 있습니다. 관계자들은 이러한 향상된 추론 기능이 과학, 코딩, 수학 등의 복잡한 문제를 해결해야 하는 경우 특히 유용할 것이라고 말합니다.

예를 들어 의학 연구자는 이를 사용하여 세포 서열 분석 데이터에 주석을 달 수 있고, 물리학자는 이를 사용하여 복잡한 양자 광학 공식을 생성할 수 있으며, 개발자는 이를 사용하여 다단계 워크플로를 구축하고 실행할 수 있습니다.

또한 OpenAI o1 시리즈는 복잡한 코드를 생성하고 디버깅하는 데 탁월합니다.

OpenAI는 개발자에게 보다 효율적인 솔루션을 제공하기 위해 코딩에 특히 뛰어난 더 빠르고 저렴한 추론 모델 OpenAI o1-mini도 출시했습니다.

더 작은 버전인 o1-mini는 o1-preview보다 비용이 80% 저렴하며 추론이 필요하지만 광범위한 세계 지식이 필요하지 않은 애플리케이션 시나리오에 적합한 강력하고 효율적인 모델입니다.

훈련 중에 OpenAI는 질문에 답하기 전에 깊이 생각하도록 이러한 모델을 훈련합니다. o1은 질문에 답하기 전에 내부 사고 체인을 생성하여 더 깊은 추론에 참여할 수 있습니다.

훈련을 통해 OpenAI o1 모델은 사고 방식을 완벽하게 학습하고 더 많은 강화 학습(훈련 시간으로 계산)과 더 많은 생각할 시간(테스트 시간으로 계산)을 통해 지속적으로 개선됩니다.

OpenAI 연구원 @yubai01도 01의 훈련 경로를 지적했습니다.

우리는 RL을 사용하여 보다 강력한 추론 모델을 훈련합니다. 이 여행에 참여하게 되어 매우 기쁩니다. 그리고 그것은 먼 길을 가고 있습니다!

보고서에 따르면 테스트에서 이 모델은 물리학, 화학, 생물학, 특히 수학과 코딩 분야에서 박사 과정 학생처럼 수행되었습니다.

국제수학올림피아드(IMO) 자격 시험에서 GPT-4o는 문제의 13%만을 해결한 반면 추론 모델은 83%의 높은 점수를 받았습니다. Codeforces 프로그래밍 대회에서 해당 성능은 코호트의 상위 89%에 속했습니다.

그러나 소문에 따르면 초기 버전인 이 모델에는 아직 웹 탐색, 파일 또는 이미지 업로드와 같은 다중 모드 기능과 같은 ChatGPT의 일부 공통 기능이 없습니다.

대조적으로, GPT-4o는 많은 일반적인 애플리케이션 시나리오를 더 잘 수행할 수 있습니다.

OpenAI는 새로운 모델의 안전성을 보장하기 위해 새로운 안전한 훈련 방법을 제안합니다.

가장 엄격한 "탈옥" 테스트에서 GPT-4o는 22점(100점 만점)을 얻은 반면, o1-preview 모델은 84점을 얻어 보안 측면에서 훨씬 앞서 있습니다.

ChatGPT Enterprise 및 Edu 사용자는 다음 주부터 두 모델 모두에 액세스할 수 있습니다. 적격 개발자는 이제 API를 통해 분당 속도 제한이 있는 두 모델을 모두 사용할 수 있습니다.

여기서 중요한 점을 지적하기 위해 OpenAI는 향후 모든 ChatGPT 무료 사용자에게 o1-mini에 대한 액세스를 제공할 것이라고 밝혔습니다. 다만, 횟수가 제한될 가능성이 높습니다.

새로운 모델 o1에 대한 자세한 내용은 보다 자세한 경험을 통해 곧 공유될 예정입니다. 관심 있는 질문이 있으면 메시지 영역에 알려주시기 바랍니다.

내 추론 능력은 훨씬 앞서 있지만 9.11과 9.8 중 어느 것이 더 큰지 여전히 알 수 없습니다.

이 관계자는 OpenAI o1의 추가 데모 영상도 공개했습니다.

예를 들어 OpenAI o1을 사용하여 다람쥐 찾기 웹 게임을 작성해 보세요. 이 게임의 목표는 코알라를 조종하여 점점 늘어나는 딸기를 피하고 3초 후에 나타나는 다람쥐를 찾는 것입니다.

Snake와 같은 전통적인 고전 게임과 달리 이러한 유형의 게임의 논리는 상대적으로 복잡하며 OpenAI o1의 논리적 추론 능력을 테스트합니다.

또는 OpenAI o1은 추론을 통해 몇 가지 간단한 물리적 문제를 해결하기 시작했습니다.

시연에서는 일반 컵에 작은 딸기를 넣고 테이블 위에 컵을 거꾸로 놓은 후 컵을 집어 들고 딸기가 어디에 있는지 묻고 추론 과정을 설명해달라고 요청하는 예를 제시했습니다. 이는 모델이 다양한 물리적 상태에 있는 물체의 위치 변화를 이해할 수 있음을 보여줍니다.

특정 애플리케이션에서 구현되면 OpenAI o1은 의사가 사례 정보를 정리하고 요약하는 데 도움을 주고 일부 어렵고 복잡한 질병의 진단을 돕는 등 의사의 오른팔 보조자가 될 수도 있습니다.

AI와 과학의 결합에 관심이 많은 양자물리학자 마리오 크렌(Mario Krenn)도 OpenAI의 o1 모델에 특정 양자 연산자의 적용에 대해 질문한 결과, OpenAI o1도 이를 쉽게 알아냈습니다.

"Strawberry"에는 몇 개의 "r"이 있습니까? GPT-4o는 잘못된 답을 제공하지만 OpenAI o1에는 문제가 되지 않습니다.

그러나 실제 테스트 후에도 OpenAI o1은 "9.11과 9.8 중 어느 것이 더 큽니까?"라는 고전적인 문제를 여전히 해결하지 못하여 심각한 감점을 초래했습니다.

OpenAI o1 출시와 관련해 NVIDIA의 구현 지능 책임자인 Jim Fan은 다음과 같이 말했습니다.

우리는 마침내 추론 시간 확장 패러다임이 일반화되어 생산에 투입되는 것을 보고 있습니다. 강화 학습의 대부인 Sutton이 "The Bitter Lessons"에서 말했듯이, 계산에 따라 제한 없이 확장할 수 있는 기술은 두 가지뿐입니다.

배우고 검색하세요. 이제는 후자에 초점을 맞춰야 할 때입니다.

그의 견해로는 대형 모델의 많은 매개변수는 사실을 기억하는 데 사용되며 이는 문답 벤치마크 테스트에서 실제로 "점수 향상"에 도움이 됩니다. 그러나 논리적 추론 능력이 지식(사실 기억)과 분리되면, small "추론 코어"는 사전 훈련 계산량을 줄일 수 있는 브라우저 및 코드 검증기와 같은 도구를 호출하는 데 사용됩니다.

Jim Fan은 또한 OpenAI o1의 가장 강력한 장점, 즉 o1 모델이 쉽게 데이터 플라이휠의 일부가 될 수 있다는 점을 지적했습니다.

간단히 말해서, 모델이 정답을 제공하면 전체 검색 프로세스가 긍정적 보상과 부정적 보상을 포함하는 훈련 데이터 세트로 바뀔 수 있습니다. 이러한 데이터세트는 모델의 향후 버전을 훈련하는 데 사용될 수 있으며, 생성된 훈련 데이터가 더욱 정교해짐에 따라 모델의 성능은 계속해서 향상될 것입니다. 자신만의 게임을 통해 자신을 훈련하는 내부 루프를 실현하는 것이 좋습니다.

하지만 네티즌들은 실제 테스트에서도 몇 가지 문제점을 발견했다. 예를 들어 답변 시간이 훨씬 길어졌지만, 질문에 대한 답변이 불완전하고 일부 질문에 대한 출력이 불완전한 등의 문제도 있었다.

Cyber Zen Heart는 이번 o1이 약간의 미세 조정/정렬을 거친 후 GPT-4o의 에이전트일 수 있다고 추측하며 전체 성능은 예상보다 훨씬 낮습니다.

Sam Altman은 또한 o1에 여전히 결함과 한계가 있으며, 처음 사용할 때 더 인상적이지만, 사용한 후에는 그 느낌이 덜하다는 점을 인정합니다.

그럼에도 불구하고 OpenAI o1 모델의 전반적인 성능은 놀랍습니다.

이제 OpenAI o1 모델 출시는 하반기 AI 모델 전쟁의 계기가 됐다고 볼 수 있다. 예상치 못한 일이 일어나지 않으면 다른 AI 기업들도 이를 숨기지 않을 것이다.

맞습니다. 저는 Anthropic, Meta AI, xAI와 같은 오래된 라이벌과 잠재적으로 딥 AI 다크호스를 목표로 삼고 있습니다.

또한 GPT-4 출시부터 현재까지 각 OpenAI 모델 출시의 가장 깊은 의미는 강력한 성능이 아니라 기술적 경로에 대한 벤치마크를 제공하여 사람들을 미지의 깊은 바다로 이동하도록 유도한다는 것입니다.

GPT-4도 그렇고, OpenAI o1도 그러기를 바라고 있습니다.

# aifaner 공식 WeChat 공개 계정: aifaner(WeChat ID: ifanr) 팔로우를 환영합니다. 더 흥미로운 콘텐츠가 최대한 빨리 제공될 예정입니다.

Ai Faner | 원본 링크 · 댓글 보기 · Sina Weibo