ChatGPT는 이미 듣고 말하고 있습니다. 곧 그것도 볼 수 있겠지

ChatGPT가 개를 만났습니다.
오픈AI

플랫폼의 최신 베타 빌드에서 발견된 코드에 따르면 사용자가 실시간으로 챗봇과 대화할 수 있는 ChatGPT의 고급 음성 모드는 곧 시각 능력을 얻을 수 있다고 합니다. OpenAI는 아직 새로운 기능의 구체적인 출시를 확인하지 않았지만 Android Authority 가 발견한 ChatGPT v1.2024.317 베타 빌드의 코드에서는 소위 "라이브 카메라"가 곧 출시될 수 있음을 시사합니다.

OpenAI는 지난 5월 ChatGPT 에 대한 고급 음성 모드의 비전 기능을 선보였는데, 이 기능은 처음 알파 버전으로 출시되었습니다. 당시 게시된 데모에서 시스템은 휴대폰의 카메라 피드를 통해 개를 보고 있다는 것을 식별하고, 과거 상호 작용을 기반으로 개를 식별하고, 개의 공을 인식하고, 개의 관계를 공과 연관시킬 수 있었습니다(예: 가져오기 재생 중).

이 기능은 알파 테스터들에게도 즉각적인 인기를 끌었습니다. X 사용자 Manuel Sainsily는 카메라의 비디오 피드를 기반으로 자신의 새 새끼 고양이에 대한 구두 질문에 답변하는 데 이 기능을 매우 효과적으로 사용했습니다.

고급 음성 모드는 추가 시각적 기능이 없더라도 9월에 Plus 및 Enterprise 가입자를 대상으로 베타 버전으로 출시되었습니다 . 물론, 사용자가 이 기능의 보컬 한계를 테스트하는 데 열중하는 것을 막지는 못했습니다. 회사에 따르면 Advanced Voice는 "보다 자연스러운 실시간 대화를 제공하고 언제든지 중단할 수 있으며 감정을 감지하고 반응합니다"라고 합니다.

디지털 눈의 추가는 최근 몇 달 동안 자체 대화 기능을 도입한 OpenAI의 주요 경쟁사인 Google 및 Meta와는 확실히 고급 음성 모드를 차별화할 것입니다.

Gemini Live는40개 이상의 언어를 구사할 수 있지만 (적어도 Project Astra가 출시될 때까지) 주변 세계를 볼 수 없습니다. 또한 9월 Connect 2024 이벤트에서 데뷔한 Meta의 Natural Voice Interactions도 사용할 수 없습니다. 카메라 입력.

OpenAI는 또한 오늘 데스크톱의 유료 ChatGPT Plus 계정에서도 고급 음성 모드를 사용할 수 있다고 발표했습니다. 한동안 모바일에서만 사용할 수 있었지만 이제는 노트북이나 PC에서도 바로 액세스할 수 있습니다.


게시됨

카테고리

작성자

태그: