1. 배경정보
1.1 대형 모델이 중요한 이유는 무엇입니까?
OpenAI의 GPT(Generative Pre-Trained Transformer) 모델은 LLM(Large Language Model)의 일종으로 오늘날 인간과 가장 가까운 기계지능을 보여준다. 전체 인터넷을 통해 컴퓨터 모델은 지능적인 출현(Emergence)을 생성할 수 있습니다. 물리학에서의 출현은 일반적으로 혼돈 현상에서 특정 안정된 패턴이 반복적으로 나타나는 것을 의미하며, 복잡한 자연 현상을 이해하는 데 가장 어려운 범주입니다. 최근 OpenAI 대표인 Sam Altman과 수석 과학자 Ilya와의 인터뷰를 통해 지능으로 등장하는 대규모 언어 모델을 길들이는 방법과 그것이 사람들에게 안정적이고 안전하게 서비스를 제공할 수 있는 방법(정렬, 정렬)을 이해할 수 있습니다. 효과적인 디버깅 방법인 GPT는 여전히 어느 정도 블랙박스입니다.
언어 모델이 세상을 바꾸는 이유가 무엇인지 물어봐야 합니다. ChatGPT는 실제로 더 순종적이고 말하기 능력이 더 뛰어나지만 지능형 텍스트 상호 작용 도구의 장점은 무엇입니까? 두 가지 이유가 있습니다: 1. 인공 지능에는 여러 모드(모달)가 있습니다. 서로 다른 모드 간의 연구가 침투하여 서로 경쟁합니다. 최고의 성능을 보이는 모드가 미래 AI 응용 프로그램의 궤적을 가장 먼저 정의할 것입니다. ChatGPT는 텍스트 모달을 보여줍니다. 지능이 최근 AI의 발전을 지배할 것이다. 2. 텍스트는 인간사회로 들어가는 입구로서 매우 중요하다.
포인트 1, 다중 양식. 이미지를 하나의 양식으로 활용하는 인공지능은 수년간 개발되어 왔으며, 이미지 인식과 자율주행 분야에서 눈부신 성과를 거듭해온 컴퓨터 비전(Computer Vision)은 인공지능의 또 다른 입문이다. 지난 10년 동안 CVPR/ICCV/ECCV 3개 학회에서 논문이 폭발적으로 늘어났는데, 병행수입을 없애더라도 이미지 인텔리전스 폭발의 전형이다. OpenAI의 출현으로 AI 애플리케이션에서 그래픽 지능의 우세한 위치가 바뀌었고 심지어 개발 궤적도 바뀌었습니다. Meta가 Segment-Anything(그림에서 서로 다른 객체를 분할하기 위한 그래픽 알고리즘)을 출시했을 때 이 모델은 텍스트에서 GPT와 유사한 힘을 보여주었습니다. 비용이 들지 않는 마이그레이션 기능을 통해 일부 사람들은 기존 CV가 죽었다고 외쳤습니다(과장).
ChatGPT가 텍스트 양식에 미치는 영향은 더 이상 설명할 필요가 없으며 단순한 과학적 연구 가치를 넘어 텍스트 양식의 지능과 비즈니스 잠재력을 재정의합니다. OpenAI의 제품인 DALL·E는 텍스트 형식 이외의 이미지 지능도 제공합니다. 오픈 소스인 Stable Diffusion과 비공개 소스인 Midjourney는 Vincent 그래픽 분야의 제왕으로서 크리에이티브 산업에 수많은 "죽음" 경고를 보내는 데에도 기여했습니다. 전체적으로 AI는 텍스트와 이미지라는 두 가지 양상으로 서로를 관통하며, 상호 경쟁을 통해 지능의 경계를 넓혀간다.
– OpenAI의 텍스트 + 이미지 형식: ChatGPT + DALL·E
– Stable Diffusion 웹 UI(이미지 모달): stable-diffusion
– Midjourney(그래픽 모달): Midjourney
포인트 2: 텍스트 양식은 인간 사회로 들어가는 입구이다. 이코노미스트와의 독점 인터뷰에서 유발 하라리("인류의 간략한 역사" 저자)의 견해를 참고할 수 있습니다. 그는 언어가 인간 사회의 운영 체제이고 인공 지능이 이 시스템을 해킹했다고 믿습니다. AI는 운영체제 자체인 언어를 통해 인류의 역사를 완전히 바꾸어 놓을 것이다. 대형 모델에 의한 인간 행동 및 사회적 피드백의 일정은 언어 시스템의 침입으로 인해 큰 영향을 미칠 것입니다.
자세한 내용은 yuval-noah-harari-argues-that-ai-has-hacked-the-operating-system-of-human-civilisation을 참조하세요.
1.2 LLM 비용
정말 큰 모델을 훈련하는 데 비용이 얼마나 드나요?
우선, 이미지나 동영상과 상관없이 대형 모델은 적어도 인터넷 전체의 텍스트 데이터가 필요하고, 시동을 걸려면 A100이 수만 대가 필요하며, 필요한 전기만큼의 컴퓨팅 에너지 소모도 무시할 수 없는 비용이 될 것이다. 시행착오의 비용은 통제할 수 없습니다: 몇 달 안에 측정 가능 훈련 시간과 인건비, 모델 훈련 및 정밀한 미세 조정 방법이 알려지지 않았거나 공개되지 않았으며 대형 모델은 여전히 블랙박스입니다. 이러한 이유들이 합쳐져 대형 모델을 소유할 수 있는 회사는 지구상에서 소수에 불과하다는 사실로 이어졌습니다. 그 이유는 극도로 강력한 재정 자원과 극도로 높은 위험 감수성이 필요하기 때문입니다. 모험 정신이 부족한 대기업은 그것을 소유할 가치가 없습니다.
Elon Musk는 최근 인터뷰에서 GPT-5 수준 모델을 훈련하려면 최신 기술 아키텍처와 최고의 AI 연구원(OpenAI 참조, 약 200명 이상)을 사용하여 30,000~50,000개의 H100 칩을 사용할 수 있다고 추정했습니다. 마지막으로 머스크는 대형 모델의 시작 비용을 제시했습니다. 최근 대형모델스타트업의 평가액 2억5000만달러와 비교해 보면 이 수치는 참고할만한 수준이다.
1.3 기회
텐센트 2023년 주주총회에서 텐센트 CEO 마화텡(Ma Huateng)은 ChatGPT와 AI에 대한 질문에 “처음에는 (인공지능이) 인터넷에 10년에 한 번 있는 기회라고 생각했지만 생각할수록 생각이 많아졌다”고 말했다. , 우리는 이것이 세기에 한 번 있는 비슷한 기회라고 더 많이 느꼈습니다. 전기를 발명한 산업 혁명과 같은 기회입니다." Ma Huateng은 인터넷 회사가 AI 분야에서 많은 것을 축적했으며 Tencent도 마찬가지라고 말했습니다. 연구개발에 몰두하면서도, 일찍 끝내고 반제품을 선보이는 데 서두르지 않습니다. "산업 혁명의 경우 전구를 한 달 일찍 꺼내는 것은 장기적으로 그다지 중요하지 않습니다. 핵심은 기본 알고리즘, 컴퓨팅 성능 및 데이터에서 탄탄한 작업을 수행하는 것이며 더 중요한 것은 시나리오의 구현입니다. , 그리고 현재 (우리는) 여전히 생각을하고 있습니다. 지금은 많은 회사가 너무 성급하고 주가를 올리려는 것처럼 느껴지는데 우리 스타일이 아닙니다.”
정리하자면, 주가를 올리기 위해 서두를 필요도 없고, 갈 길이 멀기 때문에 서두를 필요도 없으며, 혁신을 위해 서두를 필요도 없습니다.대형 모델은 새로운 적용이 아니라 혁명 그 자체입니다.
나에게도 몇 가지 의견이 있다. 전구를 한 달 늦게 꺼내는 것과 한 달 일찍 꺼내는 것의 차이는 결국 당신이 에디슨이 되는지 아니면 전구를 발명한 알려지지 않은 제2의 사람이 되는지입니다. 그러나 대형 모델의 놀라운 성능에도 불구하고 국산화와 개선의 도전은 여전히 험난하다. 우리가 비행기를 처음 제작하는 것은 어려운 시기입니다. 안전하고 안정적으로 비행하려면 한계선이 어디에 있는지 이해하기 위해 여전히 실패를 통해 뼈저리게 얻은 교훈이 많이 필요합니다. OpenAI는 유력한 제품 방식인 Plugin 플러그인을 출시했지만, 현재 Plugin의 상용화 성능은 확실하지 않으며, Plugin에 의해 실행될 것으로 예상되는 App Store도 항상 불분명합니다. 상업적 가치가 있는 제품으로의 개발은 아직 미지수입니다. 지난 수년간 구스팩토리는 후발주자 우위의 트렌드세터이자 마이크로 혁신의 트럼프 카드를 보유해 왔으며, 그 강점을 최대한 활용하는 것이 반드시 무리한 것은 아닙니다.
2. GPT는 인간-컴퓨터 상호작용 계층(HCI/UI)에 변화를 일으킵니다.
사용자 인터페이스, 사용자 상호 작용 인터페이스를 UI라고 합니다. 오늘날 모든 사람은 UI의 바다에 살고 있습니다. 많은 인터넷 사람들은 UI ≒ 웹 + 앱 디자인이라고 믿고 있으며, 이러한 이해는 UI의 의미를 크게 제한합니다. UI에 대한 보다 전문적인 정의는 HCI(Human-Computer Interface), 인간-컴퓨터 상호작용 인터페이스(Human-Computer Interaction Interface)라고 해야 합니다. 지난 한 세기에 가까운 개발 기간 동안 사람들은 당시 기계의 컴퓨팅 성능과 지능 수준을 기반으로 여러 세대에 걸쳐 독특한 UI를 디자인했습니다. 우리는 GUI에서 NLI로 전환하는 단계에 있습니다.
- PCI: 천공 카드 인터페이스, 천공 카드 대화형 인터페이스
- CLI: 명령줄 인터페이스, 명령줄 대화형 인터페이스
- GUI: 그래픽 사용자 인터페이스, 그래픽 대화형 인터페이스
- NLI: 자연어 인터페이스(Natural Language Interface), 자연어 대화형 인터페이스
- BCI: 뇌 컴퓨터 인터페이스, 뇌-컴퓨터 상호 작용 인터페이스
2.1 PCI, 천공카드 인터페이스 천공카드 인터페이스
위: 프로그램이 담긴 천공 카드 더미.
아래: 1950년 미국 서기관이 미국 인구 조사 데이터 섹션이 포함된 천공 카드를 만들고 있습니다.
2.2 CLI, 명령줄 인터페이스 명령줄 인터페이스
프로그래밍 언어는 더욱 캡슐화되고 디스플레이 장치가 등장하며 명령줄 도구는 컴퓨터의 가장 중요한 대화형 인터페이스가 되었습니다. CLI 작업은 효율적이고 강력합니다.
2.3 GUI, 그래픽 사용자 인터페이스 사용자 그래픽 인터페이스
잡스가 Xerox에서 "훔친" 그래픽 사용자 인터페이스인 GUI는 개인용 컴퓨터 혁명을 시작했습니다.
이 인터페이스 계층은 매우 영향력이 컸으며 세계 최초의 킬러 응용 프로그램은 Excel의 전신이기도 한 Macintosh 스프레드시트 VisiCalc인 GUI에서 탄생했습니다.
오늘날에도 Mac의 아름답고 부드러운 UI 인터페이스는 여전히 사용자에게 가장 매력적인 제품 기능 중 하나입니다.
2.4 NLI, 자연어 인터페이스 자연어 인터페이스
1. 문자 대 문자 https://openai.com/chatgpt
2. 텍스트를 이미지로 https://openai.com/dall-e-2
3. 텍스트를 비디오로 변환 文生视频
런웨이: 인공 지능으로 창의성을 향상시킵니다.
한마디: "아름다운 거실 컨셉 렌더링" "아름다운 거실 컨셉 렌더링 생성"
4. Text to Action 文生 행동
정통한:
Adept의 목표는 소프트웨어 자동화를 통해 만능 지능형 비서를 구축하는 것입니다. 자연어는 Adept 사용자가 앞으로 사용해야 할 유일한 대화형 콘텐츠가 될 것입니다.
2.5 BCI, 뇌 컴퓨터 인터페이스
생각에서 행동으로, 인간의 사고에서 기계의 행동까지. 지난해 널리 알려진 뉴로링크(NeuroLink)는 원숭이가 자신의 생각으로 퐁(Pong) 게임을 할 수 있게 하고, 인간은 뇌-컴퓨터 인터페이스를 이용해 간단한 게임과 기계 보철물을 제어할 수도 있다. 이 단계에서는 보다 의미 있는 뇌 컴퓨터 제품이 주로 장애인이 보철물을 제어하고 생활 능력을 회복하는 데 도움이 됩니다. 오늘날의 뇌-컴퓨터 기술은 혁명적인 인간-컴퓨터 상호 작용 인터페이스를 논의하기에는 아직 조금 이르습니다.
2.6 요약
-UI의 의미가 확장되어야 함
기계와 인간 사이의 통신에는 인간-컴퓨터 상호 작용에서 입력과 출력의 경계를 제어하는 대화형 미디어 계층이 필요합니다. 대화형 매체는 사람의 입력을 필터링하고 변환하여 이러한 이상한 사람의 입력을 기계에서 안전하고 식별할 수 있게 만듭니다. 동시에 기계에서 반환된 결과는 대화형 매체에 의해 필터링 및 변환되어 안전하고 유용하며 가치 있게 만듭니다. 인간에게.
인간과 기계를 연결하는 이 대화형 미디어 계층이 UI의 정의입니다.
지난 20년간의 인터넷 혁명 속에서 GUI는 버튼, 끌기, 도르래, 손가락 확대/축소, 여러 손가락 조작, 흔들기, 뒤집기, 하드웨어 등 제한된 조작 형태를 통해 사람들이 기계로 하고 싶은 모든 입력 방법을 표준화했습니다. 버튼 등. 이 표준화된 입력은 기계에 의해 이해되고 표준화된 출력으로 반환됩니다. PC와 모바일 인터넷 혁명은 UI와 GUI를 동일시했지만 사실 UI는 GUI의 기존 상호작용 방식보다 훨씬 더 풍부합니다.
GPT의 등장은 이러한 균형을 직접적으로 무너뜨렸습니다. 기계가 스마트해지면서 제품에 미치는 가장 중요한 영향은 컴퓨터의 자연어에 대한 내결함성이 크게 향상되었다는 것입니다. 사람을 이해하기 위해 더 이상 매우 제한된 입력만 받을 수 있는 필터가 필요하지 않습니다. 매일 사용되는 자연어에는 온갖 논리와 힌트, 풍자, 실수까지 뒤섞여 있다. 자연어에 대한 AI의 내결함성이 향상되면 UI로서 GUI의 현재 상호 작용 계층이 확실히 파괴될 것입니다.
1. 사용자 경험(UX)의 큰 변화. 사용자들은 과거 손가락과 마우스를 이용한 '클릭, 슬라이딩, 드래그'의 주요 상호작용 방식에서 자연어를 인터페이스로 활용하는 상호작용 방식으로 변화했다.
2. 현재 GUI가 사라지나요? 아니요, 두 가지 이유가 있습니다. 첫째, 모델이 충분히 정확하지 않거나 AI 제품화가 미성숙한 경우 GUI의 우아한 외관과 경험은 여전히 사용자에게 매력적이며 손가락과 마우스로 상호 작용하는 비용은 자연어보다 훨씬 저렴합니다. 둘째, UI 개발의 다양한 단계를 언급하면 검은색 명령줄이 구식인가요? 아니요, GUI는 즉시 사라지지 않습니다. 이전 시대의 대화형 인터페이스를 사용하는 것이 더 효율적이라면 사용 임계값이 높더라도 이러한 종류의 상호 작용은 여전히 존재합니다.
3. 명령줄 도구(CLI)는 여전히 컴퓨터에서 심층적인 작업을 수행하는 가장 효율적인 방법입니다. 스마트한 미래에는 애플리케이션을 심층적으로 운영해야 할 경우 누군가가 이렇게 말할 수 있습니다. 오늘날의 프로그래머가 말하는 것처럼 GUI를 열어보세요. 터미널을 열어보세요.
4. 인간-컴퓨터 상호작용 인터페이스는 컴퓨터 연산의 깊이를 얕게 하고 사용 문턱을 낮추는 방향으로 발전할 것이다. 대형 모델이 촉발할 변화도 마찬가지다. 다음 추세를 볼 수 있습니다: 명령줄 CLI – 그래픽 인터페이스 GUI – 자연어 NLI – 뇌-컴퓨터 인터페이스 BCI 이러한 추세는 컴퓨터가 심층적으로 작동할 수 있는 능력이 점점 낮아지고 있으며 사용자에 대한 임계값도 낮아지고 있습니다. 그리고 더 낮은.
5. 최고의 컴퓨터 엔지니어는 기계에 대한 깊은 이해와 심도 있는 운용 능력을 대체할 수 없고 오직 최고의 엔지니어만이 살아남을 수 있습니다.
아래 그림을 보면 GPT가 제품 UI에 큰 변화를 가져오는 이유를 더 명확하게 알 수 있습니다. 과거의 기계어는 매우 가혹하고 내결함성이 극히 낮았기 때문입니다. 프로그래밍 언어에서 단일 구두점 오류로 인해 전체 프로그램이 작동하지 않을 수 있습니다. 대형 모델이 가져온 가장 중요한 마법은 인간의 자연어(Natural Language, NL)에 대한 기계의 내결함성을 크게 향상시키는 것입니다. 요약하자면, 미래의 자연어 대화형 인터페이스는 텍스트 입력 상자를 출발점으로 삼아 다중 모드 및 매우 동적인 상호 작용을 목표로 할 것입니다.
사용 임계값: 인간과 가까울수록 사용 임계값이 낮아집니다. 명령줄 CLI > 그래픽 인터페이스 GUI > 자연어 NLI > 뇌-컴퓨터 인터페이스 BCI
작업 효율성: 기계에서 멀어질수록 제어 효율성이 낮아집니다. 명령줄 CLI > 그래픽 인터페이스 GUI > 자연어 NLI > 뇌-컴퓨터 인터페이스 BCI
-NLI의 진화
·시작: 텍스트 입력 상자
·개발: 다중 모드 입력 상자, 음성, 이미지, 비디오 · 목표 : 입력 – 다중 모드 텍스트, 사운드, 이미지, 비디오 => 반환 – 유용한 텍스트, 음성, 이미지, 비디오 + 유용한 소프트웨어 동작.
Vision Pro는 3차원 상호 작용, 제스처, 중력, 회전, 음성 텍스트, 정적 이미지, 실시간 비디오 등 어떤 모드를 제공할 수 있습니다.
·미래 : 인간과 대화하는 것은 대형 모델을 통해 세상을 이해하는 출발점일 뿐이며, LLM을 뇌로, 카메라를 눈으로, 로봇 팔을 팔다리로 활용하는 것은 AI가 물리적 세계와 상호 작용하는 새로운 인터페이스입니다.
-Timberter – 수년 동안 사용되어 온 시각적 알고리즘을 기반으로 하는 "목재 계산" 애플리케이션입니다 . 여기에 대형 모델의 추론 능력과 핸들링을 수행할 수 있는 로봇 팔을 더하면 어떻게 될까요?
-음성으로 조종되는 로봇? OpenAI GPT-4 속삭임 음성 인터페이스
3. AI 생태계
3.1 포브스 AI 50
포브스(Forbes)는 최근 몇 년 동안 올해 가장 유망한 AI 기업 50개를 선정했습니다. 예년과 달리 올해 AI 기업 명단에는 북미뿐만 아니라 미국, 캐나다, 이스라엘, 영국, 일본 등 전 세계 800여개 기업의 가장 유망하고 가치 있는 50개 기업이 선정됐다.
아래는 OpenAI, Jasper, Hugging Face, Adept 등 여러분에게 친숙한 모든 AI 스타트업을 포함하여 제가 편집한 전체 목록입니다. 관심 있는 학생들은 Forbes 웹사이트에 가서 직접 읽어볼 수 있습니다. 토론은 시작하지 않겠습니다. 포브 AI 50
3.2 더 많은 AI 스타트업
사용 시나리오는 주로 C 측(생성 텍스트, 오디오, 이미지, 비디오 + 검색 + 자동 복사)에 집중되어 있습니다. B면 응용 프로그램은 대부분 통합을 기반으로 하며 법률, 의학 및 건강, 학술 연구(생물학, 물리학, 수학) 및 지능형 분석과 같은 특정 산업 범주에 속할 수 있습니다. 또한 벡터 데이터베이스, 대형 모델 AI 모델, AI 보안, 개발 및 운영 DevOps, 자동화된 Copilt 등 AI 인프라가 있습니다.
아래 사진에는 더 많은 AI 생성 기업 목록이 포함되어 있습니다.(2023년 3월, 미국 VC 관점) 관심 있는 학생들이 직접 체험해 볼 수 있습니다.
4. 대형 모델과 제품의 통합
4.1 통합 비용
여기서 통합 비용은 AI를 제품에 통합하는 데 드는 개발 비용뿐만 아니라 사용자가 AI 지능형 애플리케이션을 사용하여 과거와 동일한 품질의 작업을 완료하는 데 필요한 학습 비용과 시간에 대한 비용을 의미합니다. AI 애플리케이션은 통합 비용이 원래 비용(개발 및 운영 비용 + 사용자 비용)보다 훨씬 적을 때만 가치가 있습니다.
통합 비용 = AI 제품 개발 비용 + 과거와 동일한 품질의 작업을 완료하기 위해 AI 애플리케이션을 사용하는 사용자 비용
통합 비용의 중요성을 설명하는 두 가지 예를 들어보십시오.
전면: AIGC는 게임 디자인을 위한 필러 재료/재료를 생성합니다.
게임 디자인 및 개발에는 채우기 재료 준비, NPC 캐릭터 대화, 스타일 전환, 엣지 장면 등 노동 집약적인 작업이 있습니다. 이러한 유형의 작업은 독창성에 대한 요구 사항이 높지 않지만 시간 비용을 크게 줄일 수는 없습니다.
이렇게 중요하지 않은 재료를 AI 도구를 이용해 생성하고, 숙련된 디자이너가 최종적으로 조정해 준다면 이전과 동일한 품질의 결과를 얻는 것이 완전히 가능합니다.
AI가 생성한 비핵심 재료 통합 비용 < < < 전통 재료 준비 비용
AIGC는 게임 자료의 맥락에서 홍보될 가치가 있습니다.
반면, 원스톱 AI를 사용하여 고급 광고를 생성하는 솔루션입니다.
AI 광고 솔루션은 과거 광고 제작 과정에서 텍스트, 이미지, 동영상 제작 비용을 절감한 것처럼 보이지만, 정말 매력적이고 진보된 광고는 엄청나게 많은 양의 맞춤형 제작과 2차 수정이 필요한 경우가 많다.
따라서 실제 사용자(AI 창작을 활용한 광고 서비스 제공자 또는 광고주를 제거하려는 광고 수요자)가 AI가 생성한 광고 콘텐츠에 대해 2차 조정을 할 때 과거 광고와 동일한 품질 수준을 달성하려면 많은 노력이 필요하게 됩니다. 조정 비용은 기존 방법보다 훨씬 높으며 대부분의 경우 동일한 품질을 달성하는 것이 불가능합니다.
고급 광고의 AI 통합 비용 > > > 기존 광고의 원래 비용.
AI 원스톱 서비스는 오늘날 현실적이지 못한 첨단 맞춤형 광고 제작을 해결합니다.
물론, 모델 성능이 향상됨에 따라 시장 수단과 시장 선호도(정밀 마케팅, 맞춤형 선호도)도 변경됩니다. 현재의 부정 사례가 긍정 사례가 되고, 긍정 사례도 부정 사례가 될 수 있습니다.
4.2 통합 방법
대형 모델은 두 가지 유형의 제품을 구동합니다. AI 기능을 기반으로 구축된 새로운 제품을 AI Naive/AI 네이티브라고 할 수 있습니다. 다른 하나는 기존 소프트웨어에 AI 기능을 추가하고 지능적인 전환을 수행하는 것인데, 이를 AI 업그레이드/AI 업그레이드라고 할 수 있습니다. 이 두 가지 방법은 서로 다른 제품 UI를 구성합니다.
AI 제품 통합에 있어 가장 중요한 요소는 다음과 같습니다.
1. AI 모델의 성능
2. AI 제품 개발 및 운영 비용 + 사용자가 AI 애플리케이션을 사용하는 비용(통합 비용).
5. AI 도구 정보
AI 애플리케이션의 구성: 인프라 인프라 + 미들웨어 미들웨어 + 애플리케이션(이러한 정의는 서로 중복될 수 있음)
5.1 AI 응용 | 응용
– 검색 엔진: 뉴 빙(New Bing), 구글 바드(Google Bard)
– 채팅 Q&A : ChatGPT, Jasper, 다양한 스마트 채팅 애플리케이션
– 빈센트 픽쳐스: Midjourney, Stable Diffusion
– 빈센트 영상: 런웨이
-자동화: 능숙함
…
추가 도구 참고자료(국내) : AI 도구 상자 | AI 도구 모음 | AI 홈페이지 탐색
5.2 미들웨어 |
대형 모델은 기초 모델로서 가장 광범위한 지식을 갖추고 강력한 일반화 능력을 보여주지만, 정밀한 시나리오에서의 정확도는 부족하다. 이는 대형 모델을 어떻게 적용할지에 대한 주요 과제이기도 합니다. 미들웨어의 중요성은 전문적인 시나리오에 대한 지식을 정리하고, 모델의 지식 기반을 확장하며, AI 정확도를 향상시키고, 최종적으로 상위 계층 애플리케이션을 연결하기 위한 편리하고 사용 가능한 인터페이스를 제공하는 것입니다. 자연어 인터페이스 비용이 매우 낮기 때문에 최초의 AgentGPT와 같이 많은 미들웨어가 애플리케이션 인터페이스와 채팅 창을 직접 제공합니다.
-에이전트GPT
https://github.com/reworkd/AgentGPT
https://agentgpt.reworkd.ai/
추가 미들웨어 도구:
-랭체인: https://github.com/hwchase17/langchain
-AutoGPT: https://github.com/Significant-Gravitas/Auto-GPT
-BabyAGI: https://github.com/yoheinakajima/babyagi
-HuggingGPT: https://github.com/huggingface/transformers
…
유사한 미들웨어가 많기 때문에 모두 나열하지는 않겠습니다.
5.3 인프라 | 인프라
-모델
대형 모델: OpenAI GPT, Google Bard, Anthropic, Wenyan Yixin, Baichuan Intelligence…
오픈 소스 모델:
라마: https://github.com/facebookresearch/llama
알파카: https://github.com/tatsu-lab/stanford_alpaca
비쿠나: https://lmsys.org/blog/2023-03-30-vicuna/
GPT4ALL: https://github.com/nomic-ai/gpt4all
ChatGLM: https://github.com/THUDM/ChatGLM-6B
바이촨-7B: https://github.com/baichuan-inc/baichuan-7B
…
안정 확산(이미지 모드): https://github.com/AUTOMATIC1111/stable-diffusion-webui
-데이터베이스데이터베이스
OpenAI에서 권장하는 벡터 데이터베이스를 참조하세요: https://platform.openai.com/docs/guides/embeddings/how-can-i-retrieve-k-nearest-embedding-Vectors-quickly
Zilliz에는 오픈 소스 제품 Milvus가 있습니다: https://github.com/milvus-io/milvus
-컴파일 및 DevOps 컴파일 및 실행
로컬 장치와 저가형 장치에서 대규모 모델을 실행하는 방법은 AI 기능을 배포하는 데 장애물이 됩니다.
MLC-LLM(Machine Learning Compilation-LLM)은 ML용 컴파일 도구입니다. 이를 통해 대규모 모델을 로컬에서 실행할 수 있습니다. https://mlc.ai/mlc-llm/
사용 경험은 다음과 같습니다. 로컬 환경에서 conda를 통해 mlc-chat-cli-nightly 도구를 설치하고 Hugging Face에서 모델을 다운로드한 후 Q&A를 위해 로컬 Mac에서 대규모 모델을 실행합니다.
모바일 장치에서 로컬로 대규모 모델을 실행합니다.
6. 결론
대형 모델: GPT와 같은 비공개 소스 대형 모델의 경우 모델 시나리오화, 데이터 보안, 정확성, 디버깅 효율성, 프롬프트 엔지니어링, 엔지니어링 인터페이스 도킹에 문제가 있습니다. 자체 배포 오픈 소스 모델은 엄밀히 말하면 대규모 모델이 아니며 문제는 속도, 성능 및 벤치마크 성능에 있습니다.
미들웨어: 모델 계층과 애플리케이션 계층을 연결하고 특정 분야의 지식 플러그인을 제공하며 애플리케이션 시나리오를 확장하고 애플리케이션 인터페이스를 신속하게 제공하며 개발 및 운영 및 유지 관리 비용을 절감합니다.
애플리케이션 계층: 사용 시나리오에서 모델 성능의 허용 오차, 이점 = 사용 가치 – 통합 비용, 위험 대응: AI 환상, AI 안전성.
사용자 인터페이스는 사람과 컴퓨터를 연결하는 강력한 접착제이며, 제품 디자인은 이 인터페이스에서 이루어집니다. GPT로 인한 혁명은 제품 UI에 큰 영향을 미칠 것입니다. 이 글의 내용은 제가 지난 몇 달간 AI 관련 정보를 연구하고 정리한 것입니다. 이 진화 경로는 텍스트 상호 작용에서 시작하여 풍부하고 다양한 다중 양식으로 확장하고 새로운 상호 작용 경험을 사용하여 고대 및 새로운 요구 사항을 충족하는 등 모델 성능이 불완전하다는 점을 고려해야 합니다.
AI 혁명의 핵심 비즈니스 질문은 언제나 '그 인터페이스가 무엇인가?'일 것입니다.
Lennon의 말로 마무리하겠습니다: 결국에는 모든 것이 괜찮을 것입니다. 괜찮지 않다면 끝이 아닙니다.
# aifaner 공식 위챗 공개 계정: aifaner(WeChat ID: ifanr) 팔로우를 환영합니다. 더 흥미로운 콘텐츠를 최대한 빨리 제공해 드리겠습니다.
Ai Faner | 원본 링크 · 댓글 보기 · Sina Weibo