이 분석은 회사가 GPT-4o 모델에 대한 업그레이드를 발표한 지 24시간 이내에 이루어졌습니다. OpenAI는 X에 대해 “모델의 창의적인 글쓰기 능력이 더욱 자연스럽고 매력적이며 맞춤화된 글쓰기로 수준이 높아졌습니다.” 라고 OpenAI는 X에 썼습니다. “또한 업로드된 파일 작업에 더 뛰어나며 더 깊은 통찰력과 더 철저한 응답을 제공합니다.” 이러한 주장이 계속해서 유지되는지 여부는 이제 의문의 여지가 있습니다.
"우리는 어제 OpenAI의 GPT-4o 릴리스에 대한 독립적 평가 실행을 완료했으며 8월 GPT-4o 릴리스보다 지속적으로 상당히 낮은 평가 점수를 측정하고 있습니다." 인공 분석은 목요일 X 포스트를 통해 발표했습니다 . 품질 지수는 77에서 71로 감소했습니다(현재 GPT-4o mini와 동일).
또한 GPQA Diamond 벤치마크에서 GPT-4o의 성능은 51%에서 39%로 감소한 반면 MATH 벤치마크는 78%에서 69%로 감소했습니다.
동시에 연구원들은 모델 응답 속도가 두 배 이상 증가하여 초당 약 80개의 출력 토큰에서 약 180개 토큰/초로 가속화되는 것을 발견했습니다. “우리는 일반적으로 OpenAI 모델의 출시일에 훨씬 더 빠른 속도를 관찰했지만(채택 전 OpenAI 프로비저닝 용량으로 인해) 이전에는 2배의 속도 차이를 보지 못했습니다.”라고 연구원은 썼습니다.
잠깐만요. 새로운 GPT-4o는 더 작고 덜 지능적인 모델인가요?
우리는 어제 OpenAI의 GPT-4o 릴리스에 대한 독립적인 평가 실행을 완료했으며 GPT-4o의 8월 릴리스보다 상당히 낮은 평가 점수를 지속적으로 측정하고 있습니다.
GPT-4o(11월) 대 GPT-4o(8월):
➤… pic.twitter.com/gjY2pBFuUv— 인공 분석 (@ArtificialAnlys) 2024년 11월 21일
“이 데이터를 바탕으로 우리는 OpenAI의 11월 20일 GPT-4o 모델이 8월 릴리스보다 작은 모델일 가능성이 높다는 결론을 내렸습니다.”라고 그들은 계속했습니다. "OpenAI가 11월 20일 버전의 가격을 인하하지 않았기 때문에 개발자는 신중한 테스트 없이 8월 버전에서 워크로드를 이동하지 않는 것이 좋습니다."
GPT-4o는 기존 GPT-3.5 및 GPT-4 모델을 능가하기 위해 2024년 5월에 처음 출시되었습니다. OpenAI에 따르면 GPT-4o는 음성, 다국어 및 비전 작업에서 최첨단 벤치마크 결과를 제공하므로 실시간 번역 및 대화형 AI와 같은 고급 애플리케이션에 이상적입니다.