GPT-4o 사용법: OpenAI의 새로운 혁신
오늘 5월 13일 현지시각(한국시간 14일 새벽 2시), OpenAI에서는 스프링 제품 업데이트 라이브 스트리밍 이벤트를 진행했습니다. 이 자리에서 발표된 것이 바로 GPT-4o입니다. GPT-4o는 기존 GPT-4 Turbo 모델의 성능을 넘어서는 동시에, 오디오와 이미지까지 처리할 수 있는 멀티모달 AI 모델로 주목받고 있습니다.

이번 발표에 앞서 OpenAI의 CEO 샘 알트먼은 지난 5월 11일, 마치 마법 같은 새로운 것을 예고하는 트윗을 남긴 바 있습니다. 그리고 그 '마법 같은 것'이 바로 GPT-4o였던 것이죠.

사실 GPT-4o는 이미 지난 4월 27일, LMSYS Chatbot Arena에서 "im-also-a-good-gpt2-chatbot"이라는 이름으로 등장했고, 많은 사람들이 이 모델에 대해 궁금해했습니다. 당시만 해도 정체불명의 언어 모델로 알려졌던 이 모델이 GPT-4o였던 것입니다.

이번 글에서는 GPT-4o가 무엇인지, 어떤 특징과 장점을 가지고 있는지, 그리고 실제로 어떻게 사용할 수 있는지 자세히 알아보도록 하겠습니다. GPT-4o가 가져올 AI 기술의 혁신과 우리 삶에 미칠 영향에 대해서도 함께 생각해 보는 시간이 되었으면 합니다.
사용방법
ChatGPT에서 GPT-4o를 사용하는 방법부터 알아보겠습니다. 현재 저는 ChatGPT에 접속하니 안내와 함께 ChatGPT-4o 선택이 가능합니다. Free 티어 사용자는 GPT-4o를 기본값으로 사용하지만, 메시지 수에 제한이 있습니다. 사용량과 수요에 따라 제한이 달라질 수 있으며, 사용할 수 없는 경우 GPT-3.5로 전환됩니다. 또한 데이터 분석, 파일 업로드, 브라우징, GPT 발견 및 사용, 비전 등 고급 도구 사용에도 제한이 있습니다. 무료로 사용하는 경우에는 이러한 제한 사항이 있지만, 그래도 GPT-4o의 강력한 성능을 경험해 볼 수 있습니다.

ChatGPT Plus와 Team 구독자는 chatgpt.com에서 더 큰 사용량 제한으로 GPT-4와 GPT-4o에 액세스 할 수 있습니다. 페이지 상단의 드롭다운 메뉴에서 GPT-4o를 선택할 수 있죠. 2024년 5월 13일 기준, Plus 사용자는 3시간마다 GPT-4o에서 최대 80개, GPT-4에서 최대 40개의 메시지를 보낼 수 있습니다.
ChatGPT Enterprise 고객은 아직은 사용이 불가하지만 곧 GPT-4o에 액세스 할 수 있을 것이라고 합니다. 새로운 대화는 기본적으로 GPT-4o로 설정되며, 다른 모델도 선택 가능합니다.
OpenAI API를 통해서도 GPT-4o를 사용할 수 있습니다. API 계정을 만들고 $5 이상을 결제하면 GPT-4, GPT-4 Turbo, GPT-4o 모델에 액세스 할 수 있습니다. GPT-4o는 Chat Completions API, Assistants API, Batch API에서 사용 가능하며, Function calling과 JSON 모드도 지원합니다. Playground를 통해서도 테스트할 수 있습니다. 현재 모델은 'gpt-4o'와 'gpt-4o-2024-05-13' 모델이 추가로 보입니다.

GPT-4o의 특징과 성능
GPT-4o는 인간과 컴퓨터 간의 훨씬 더 자연스러운 상호작용을 향한 발걸음입니다. "o"는 "omni"를 의미하는데, 이는 GPT-4o가 텍스트, 오디오, 이미지 등 모든 형태의 입력을 받아들이고, 또한 모든 형태의 출력을 생성할 수 있음을 나타냅니다. 놀랍게도 GPT-4o는 오디오 입력에 평균 320밀리 초, 최소 232밀리 초 만에 응답할 수 있습니다. 이는 인간의 대화 응답 시간과 유사한 수준이죠.
GPT-4o는 영어 텍스트와 코드에서 GPT-4 Turbo와 동등한 성능을 보이면서도, 비영어 텍스트에서는 상당한 개선을 보여줍니다. 게다가 훨씬 빠르고 API 비용은 50%나 저렴하죠. 특히 GPT-4o는 기존 모델에 비해 시각과 청각 이해 능력이 뛰어납니다.
GPT-4o 이전에는 Voice Mode를 사용하여 ChatGPT와 대화할 수 있었지만, GPT-3.5는 평균 2.8초, GPT-4는 평균 5.4초의 지연 시간이 있었습니다. 이유는 먼저 SST(Speech-to-Text)로 사용자의 Voice를 Text로 변환하고 GPT에 전달 후 생성된 Text를 다시 Voice로 출력했기 때문입니다. 이러한 과정에서 시간 지연이 발생했습니다.

하지만 GPT-4o는 텍스트, 비전, 오디오를 아우르는 단일 모델로 훈련되었기 때문에, 모든 입출력이 동일한 신경망에 의해 처리됩니다. 이로 인해 어조, 다중 화자, 배경 소음 등을 직접 관찰할 수 있고, 웃음, 노래, 감정 표현 등도 출력할 수 있게 되었죠.

OpenAI는 GPT-4o의 다양한 능력을 시연하는 데모 영상을 공개했습니다. 두 GPT-4o가 상호작용하며 노래하는 모습, 면접 준비, 가위바위보 게임, 풍자, 수학풀이, 스페인어 배우기, AI 회의, 실시간 번역, 고객 서비스 개념 증명, 생일 축하 등 다양한 시나리오를 소개하고 있습니다.

데모만 보더라도 GPT-4o 답변 중에 말을 끊을 수도 있고 동일한 화면을 보면서 이야기를 나눌 수 있습니다. 기존 Voice Mode는 단순히 텍스트를 TTS(Text-to-Speech) 하는 수준이었는데, 대답이 자연스러워졌을 뿐만 아니라 심지어 감정까지 표현할 수 있습니다. 잠잘 때 동화를 만들어달라는 요청부터 로봇 소리로 바꿔달라, 강렬한 드라마처럼 표현해 달라는 요청에 즉각 반응했습니다. GPT-4o는 작성 중인 코드를 보고 코드를 분석했습니다. 잠재적인 문제를 발견할 수 있었으며 현재 데스크톱에서 작업 중인 내용도 설명할 수 있었죠. 데모 중에 그래프를 보고 실제 피드백과 정보를 제공하는 놀라운 장면을 연출합니다. 이런 장면을 보고 있으면 정말 친구와 화상통화를 하는 느낌을 받았습니다.
지금 수많은 LLM 모델이 쏟아지고 너도나도 GPT-4를 뛰어넘었다며 열을 올리고 있었는데, OpenAI는 다시 한번 AI 분야에서 왜 자신들이 선두주자인지를 증명했습니다. 사실 현재 생성형 AI를 이용한 다양한 서비스는 과거 챗봇보다 똑똑한 채팅을 이용한 봇 같은 느낌이었는데, 이번 업데이트를 통해 사용성이 매우 좋아졌습니다. 나아가 아이언맨의 자비스의 느낌이 들기도 하고, 현재 그 수준은 아니더라도 그 가능성을 보이기 시작했습니다. GPT-4o는 사람이 컴퓨터와 상호작용하는 방식에 있어 큰 발전을 가져다줄 것입니다. 음성, 시각, 텍스트를 아우르는 멀티모달 기능, 빠른 응답 속도, 자연스러운 대화 능력 등은 사용자 경험을 한 차원 높일 것으로 기대됩니다.
GPT-4o의 놀라운 성능과 잠재력을 보면서, 샘 알트먼 CEO가 GPT-4o를 마법 같다고 표현한 이유를 알 것 같습니다. GPT-4o는 인간과 컴퓨터의 상호작용을 한 단계 진화시키며, 우리가 상상하던 AI의 모습을 현실로 만들어가고 있기 때문입니다.
이번 업데이트는 AI 기술의 발전 방향을 제시하고, 우리 삶에 미칠 영향을 가늠케 하는 중요한 이정표가 될 것입니다. OpenAI가 선보인 GPT-4o는 인간-컴퓨터 상호작용의 새로운 지평을 열어줄 것으로 기대되며, 앞으로의 발전 과정이 더욱 기대됩니다.
'Insights > IT Trends' 카테고리의 다른 글
Claude Projects 가이드: AI 협업의 혁신 (0) | 2024.06.30 |
---|---|
Google I/O 2024 핵심 요약: Google의 AI 비전과 전략 (1) | 2024.05.16 |
미스터리 모델 'gpt2'의 실체와 사용법 (57) | 2024.05.11 |
Udio: 프롬프트로 생성하는 AI 음악 (사용법) (1) | 2024.04.21 |
Meta: Llama 3 발표 (1) | 2024.04.19 |
댓글
이 글 공유하기
다른 글
-
Claude Projects 가이드: AI 협업의 혁신
Claude Projects 가이드: AI 협업의 혁신
2024.06.302024년 6월 25일, Anthropic은 Claude AI의 획기적인 새 기능 'Projects'를 선보였습니다. 현재는 Claude Pro 또는 Team 플랜 사용자만 이용할 수 있습니다. Claude Projects는 OpenAI의 GPTs와 유사한 개념으로, 사용자가 특정 목적에 맞춰 AI를 커스터마이즈 할 수 있습니다.사용자들은 Claude Projects를 통해 AI 작업 환경을 구축할 수 있고 각 프로젝트는 독립적인 지식 베이스와 대화 기록을 유지하면서 사용자가 원하는 방식으로 AI를 '훈련'시킬 수 있습니다. 사용자는 관련 문서를 업로드하고, 특정 맥락을 제공하며, 원하는 대로 AI의 행동을 조정하면서 결과적으로 매번 같은 설명을 반복할 필요 없이, 프로젝트의 목적에 최적화된 AI 협력자… -
Google I/O 2024 핵심 요약: Google의 AI 비전과 전략
Google I/O 2024 핵심 요약: Google의 AI 비전과 전략
2024.05.16Google I/O 2024가 시작되기 하루 전, OpenAI는 스프링 제품 업데이트 라이브 스트리밍 이벤트를 진행했습니다. 이 자리에서 발표된 GPT-4o는 충격 그 자체였습니다. 멀티모달 기능, 빠른 응답 속도, 자연스러운 대화 능력 등 GPT-4o의 성능은 많은 이들을 깜짝 놀라게 했죠. 너무나 충격적이어서 다음 날 열리는 Google I/O에 대한 기대감과 함께 약간의 걱정도 있었습니다.하지만 Google I/O 2024에서 구글은 플랫폼 회사로서의 저력을 유감없이 발휘했습니다. Google Workspace, Android OS, Google Search, Gmail, Google Maps 등 수많은 서비스와 제품을 보유한 구글은 단순히 GPT-4o와 경쟁하는 것이 아니라, 제미나이를 통해 자사… -
미스터리 모델 'gpt2'의 실체와 사용법
미스터리 모델 'gpt2'의 실체와 사용법
2024.05.11최근 LMSYS Chatbot Arena에 정체불명의 언어 모델(LLM)이 등장했습니다. LMSYS Chatbot Arena는 대규모 언어 모델(LLM)의 성능을 평가하는 대규모 벤치마킹 플랫폼입니다. 이 플랫폼은 사용자가 두 개의 LLM이 생성한 응답을 비교하고 선호하는 응답을 선택하도록 요청하는 방식으로 작동합니다. 두 개의 모델은 무작위로 선택되어 제공됩니다. 모델은 GPT-4, Claude3, Gemini, llama 모델 등 39개의 모델들이 있습니다. 이러한 평가를 통해 LMSYS Chatbot Arena는 각 LLM의 강점과 약점을 식별하고 Elo 레이팅 시스템을 사용하여 LLM의 전체 성능을 순위 지정합니다. 각종 LLM 모델이 새로 나올 때마다 벤치마크 점수는 높지만 실제 사용해 보면 기… -
Udio: 프롬프트로 생성하는 AI 음악 (사용법)
Udio: 프롬프트로 생성하는 AI 음악 (사용법)
2024.04.212024년 4월 10일, 구글 딥마인드 출신 공학자들이 만든 오디오 및 음악 생성 인공지능 서비스인 Udio가 베타 버전을 공개했습니다. 이전에도 Suno, Stable Audio 등의 음악 생성 서비스가 있었지만, Udio 역시 간단한 프롬프트로 음악을 생성할 수 있는 획기적인 서비스를 선보였습니다. Udio는 사용자가 원하는 음악 유형에 대한 설명을 입력하면, AI 시스템이 프롬프트에 맞게 독특하고 고품질의 음악을 생성합니다. 비록 인간이 작곡한 음악을 완전히 대체할 수는 없겠지만, 음악가와 음악 애호가 모두에게 강력한 도구가 될 것으로 기대되고 있습니다. 현재 사용자 급증으로 인한 서버 과부하 이슈를 겪고 있기는 하지만, 사람이 없는 시간대에는 40초 만에 30초짜리 곡 2개를 금방 만들어낼 수 있…
댓글을 사용할 수 없습니다.