미스터리 모델 'gpt2'의 실체와 사용법
최근 LMSYS Chatbot Arena에 정체불명의 언어 모델(LLM)이 등장했습니다. LMSYS Chatbot Arena는 대규모 언어 모델(LLM)의 성능을 평가하는 대규모 벤치마킹 플랫폼입니다. 이 플랫폼은 사용자가 두 개의 LLM이 생성한 응답을 비교하고 선호하는 응답을 선택하도록 요청하는 방식으로 작동합니다. 두 개의 모델은 무작위로 선택되어 제공됩니다. 모델은 GPT-4, Claude3, Gemini, llama 모델 등 39개의 모델들이 있습니다.

이러한 평가를 통해 LMSYS Chatbot Arena는 각 LLM의 강점과 약점을 식별하고 Elo 레이팅 시스템을 사용하여 LLM의 전체 성능을 순위 지정합니다. 각종 LLM 모델이 새로 나올 때마다 벤치마크 점수는 높지만 실제 사용해 보면 기대에 못 미치는 경우가 많았기 때문에 등장했습니다.
그런데 이 벤치마킹 플랫폼에 'im-also-a-good-gpt2-chatbot'라는 모델이 등장했습니다. 이름만 보면 gpt2라고 보이는데, 이 모델은 GPT-4에 필적하는 성능을 보여주지만, 이름과는 달리 GPT-2와 관련이 없다고 합니다. 대신, 향상된 추론 능력과 인간 같은 대화로 인해 OpenAI의 차세대 모델인 GPT-4.5나 GPT-5일 가능성이 제기되고 있습니다. 또 OpenAI가 Q*(Q star)를 테스트하는 것일지 모른다는 예측도 있습니다. 이 미스터리한 모델을 사용하는 방법에 대해 소개하겠습니다.
'im-also-a-good-gpt2-chatbot' 모델을 사용하는 방법은 다음과 같습니다.
1. https://chat.lmsys.org/ 에 접속합니다.
Gradio로 만들어진 페이지가 보입니다. Chatbot Arena는 사용자가 어떤 LLM을 평가하는지 알 수 없도록 Model A, Model B라고 익명으로 표현합니다. 이를 통해 사용자는 편견 없이 응답을 평가할 수 있습니다.

2. 프롬프트에 무작위로 작성
각 사용자는 무작위로 두 개의 서로 다른 LLM으로부터 응답을 평가하게 됩니다. 어떤 모델인지 확인할 수 없으므로, 프롬프트 입력창에 아무 글이나 입력하여 응답을 받습니다.

3. 모델 평가
하단에는 두 모델을 평가하기 위해 'A is better', 'B is better', 'Tie', 'Both are bad'라는 버튼이 나옵니다. 평가를 하면 모델명이 표기됩니다. 저는 'Tie' 버튼을 클릭했습니다.

4. 'im-also-a-good-gpt2-chatbot' 모델이 나올 때까지 반복 수행
'im-also-a-good-gpt2-chatbot'라는 모델명이 나올 때까지 페이지를 새로고침하여 반복합니다.

'im-also-a-good-gpt2-chatbot' 모델의 흥미로운 점은, 제가 "너는 누구니?"라고 질문했을 때 "안녕하세요! 저는 OpenAI가 개발한 대화형 인공지능, ChatGPT입니다."라고 응답한다는 것입니다. 모델의 정체성에 대한 궁금증을 더욱 증폭시킵니다.

한편, 'im-a-good-gpt2-chatbot'이라는 모델도 있습니다. 사용자들의 평가에 따르면, 'im-also-a-good-gpt2-chatbot' 모델이 'im-a-good-gpt2-chatbot' 모델보다 더 뛰어난 성능을 보여준다고 합니다.
이제 'im-also-a-good-gpt2-chatbot' 모델의 성능을 직접 실험해보겠습니다. 이 모델이 GPT-4에 필적하는 성능을 보여준다는 평가를 받고 있기에, 다양한 주제와 난이도의 질문을 통해 모델의 능력을 테스트해 볼 예정입니다.
테스트
#1 질문 : 강 건너기 문제 (늑대, 양, 풀)
정해진 용량의 운송수단으로 주어진 물체, 사람 등을 옮기는 유형의 문제입니다.

'im-also-a-good-gpt2-chatbot' 모델과 대결 상대인 'claude-3-sonnet-20240229' 모델은 모두 "강 건너기 문제(늑대, 양, 풀)"를 정확하게 해결했습니다. 그러나 'im-also-a-good-gpt2-chatbot' 모델의 답변 구조를 보면 단순히 GPT-2 모델이라고 하기에는 매우 뛰어난 성능을 보여줍니다. 흥미로운 사실은 이 문제가 GPT-4가 출시되었을 때, GPT-3.5와 비교하여 얼마나 성능이 향상되었는지 소개하면서 테스트했던 문제입니다. 당시 GPT-3.5는 이 문제를 틀렸던 반면, 'im-also-a-good-gpt2-chatbot' 모델은 정확하게 해결했습니다. 이는 이 모델이 GPT-2라고 하기에는 더욱 믿기 어려운 수준의 성능을 보여준다는 것을 의미합니다.
#2 질문 : 외판원 문제 (Traveling Salesman Problem, TSP)
여행 판매원 문제는 인기 있는 수학 문제로, n개의 도시들 사이의 거리가 주어지고 모든 도시를 정확히 한 번씩 돌아 제자리로 돌아와야 하는데 지점과 거리를 고려하여 가장 효율적인 궤도를 구하는 문제입니다.

'im-also-a-good-gpt2-chatbot' 모델과 'claude-3-sonnet-20240229' 모델 모두 "외판원 문제(TSP)"를 정확하게 해결했습니다. 이 역시 과거 GPT-3.5가 이 문제를 틀렸던 것과 대조적입니다. 특히 주목할 만한 점은 'im-also-a-good-gpt2-chatbot' 모델의 답변 구조가 매우 정돈되어 있다는 것입니다.
#3. 알고리즘 문제
'im-also-a-good-gpt2-chatbot' 모델의 성능을 더욱 깊이 있게 평가하기 위해 다양한 난이도의 알고리즘 문제를 제시했습니다. 일반적으로 GPT-4나 Claude 3와 같은 최신 언어 모델들은 난이도가 낮은 알고리즘 문제는 잘 해결하는 편입니다. 그러나 난이도가 상당히 높은 문제들에 대해서는 대부분 틀리거나 제한된 연산 시간을 초과하거나 메모리를 초과하는 경향이 있었습니다.

그런데 이번 'im-also-a-good-gpt2-chatbot' 모델은 이전 모델들이 해결하지 못했던 난이도 높은 알고리즘 문제 중 일부를 성공적으로 해결했습니다. 이는 매우 흥미로운 결과로, 'im-also-a-good-gpt2-chatbot' 모델의 알고리즘 이해 능력과 문제 해결 능력이 기존 모델들보다 크게 향상되었음을 시사합니다. 이러한 결과는 'im-also-a-good-gpt2-chatbot' 모델이 단순히 GPT-2의 변형이 아닌, 훨씬 더 발전된 차세대 언어 모델일 가능성을 더욱 높여줍니다.
'im-also-a-good-gpt2-chatbot' 모델의 정체성에 대한 궁금증은 여전히 남아있습니다. 이유는 알 수 없지만, 이 모델은 4월 27일에 LMSYS Chatbot Arena에 처음 등장했고, 4월 30일에는 샘 알트먼이 트위터(현재는 X)에 "i do have a soft spot for gpt2"라는 글을 작성했습니다. 또한 5월 2일에는 모델이 잠시 온라인에서 사라졌다가 다시 등장했을 때 'im-a-good-gpt2-chatbot'이라는 글을 작성하기도 했습니다. 현재 이에 대해 OpenAI는 어떠한 논평도 거부하고 있습니다.

한편 OpenAI는 GPT-5를 빠르면 올여름에 발표할 것이라는 소식이 들려오고 있으며, 지속적으로 새로운 언어 모델 개발을 준비하고 있는 것으로 보입니다. 'im-also-a-good-gpt2-chatbot' 모델의 놀라운 성능과 OpenAI의 GPT-5 개발 계획은 인공지능 분야의 발전 속도가 가속화되고 있음을 보여줍니다. 앞으로 등장할 차세대 언어 모델들이 어떤 혁신을 가져올지 매우 기대됩니다.
(추가 : 2024-05-13) 그런데 알고 보니 'im-also-a-good-gpt2-chatbot' 모델은 사실 OpenAI가 GPT-4o의 베타 버전을 LMSYS Chatbot Arena에서 테스트한 것이었습니다. 당시 많은 사람들이 이 모델의 정체에 대해 궁금해했는데, 이제 그 비밀이 밝혀진 셈이죠. 'im-also-a-good-gpt2-chatbot'의 놀라운 성능은 GPT-4o의 잠재력을 미리 보여주는 것이었습니다. GPT-4o의 공식 출시로 인해, 이전에 기대했던 GPT-5의 일부 기능이 먼저 적용된 것으로 보입니다. 이는 GPT-5에 대한 기대감을 한층 더 높이고 있습니다. GPT-4o에서 선보인 멀티모달 기능, 빠른 응답 속도, 자연스러운 대화 능력 등은 GPT-5에서 어떤 형태로 진화할지 상상하게 만듭니다.
GPT-4o 사용법: OpenAI의 새로운 혁신
오늘 5월 13일 현지시각(한국시간 14일 새벽 2시), OpenAI에서는 스프링 제품 업데이트 라이브 스트리밍 이벤트를 진행했습니다. 이 자리에서 발표된 것이 바로 GPT-4o입니다. GPT-4o는 기존 GPT-4 Turbo 모
yunwoong.tistory.com
'Insights > IT Trends' 카테고리의 다른 글
Google I/O 2024 핵심 요약: Google의 AI 비전과 전략 (1) | 2024.05.16 |
---|---|
GPT-4o 사용법: OpenAI의 새로운 혁신 (3) | 2024.05.14 |
Udio: 프롬프트로 생성하는 AI 음악 (사용법) (1) | 2024.04.21 |
Meta: Llama 3 발표 (1) | 2024.04.19 |
세계를 이끄는 빅6 AI 기업 (2024년 4월 기준) (11) | 2024.04.15 |
댓글
이 글 공유하기
다른 글
-
Google I/O 2024 핵심 요약: Google의 AI 비전과 전략
Google I/O 2024 핵심 요약: Google의 AI 비전과 전략
2024.05.16Google I/O 2024가 시작되기 하루 전, OpenAI는 스프링 제품 업데이트 라이브 스트리밍 이벤트를 진행했습니다. 이 자리에서 발표된 GPT-4o는 충격 그 자체였습니다. 멀티모달 기능, 빠른 응답 속도, 자연스러운 대화 능력 등 GPT-4o의 성능은 많은 이들을 깜짝 놀라게 했죠. 너무나 충격적이어서 다음 날 열리는 Google I/O에 대한 기대감과 함께 약간의 걱정도 있었습니다.하지만 Google I/O 2024에서 구글은 플랫폼 회사로서의 저력을 유감없이 발휘했습니다. Google Workspace, Android OS, Google Search, Gmail, Google Maps 등 수많은 서비스와 제품을 보유한 구글은 단순히 GPT-4o와 경쟁하는 것이 아니라, 제미나이를 통해 자사… -
GPT-4o 사용법: OpenAI의 새로운 혁신
GPT-4o 사용법: OpenAI의 새로운 혁신
2024.05.14오늘 5월 13일 현지시각(한국시간 14일 새벽 2시), OpenAI에서는 스프링 제품 업데이트 라이브 스트리밍 이벤트를 진행했습니다. 이 자리에서 발표된 것이 바로 GPT-4o입니다. GPT-4o는 기존 GPT-4 Turbo 모델의 성능을 넘어서는 동시에, 오디오와 이미지까지 처리할 수 있는 멀티모달 AI 모델로 주목받고 있습니다.이번 발표에 앞서 OpenAI의 CEO 샘 알트먼은 지난 5월 11일, 마치 마법 같은 새로운 것을 예고하는 트윗을 남긴 바 있습니다. 그리고 그 '마법 같은 것'이 바로 GPT-4o였던 것이죠.사실 GPT-4o는 이미 지난 4월 27일, LMSYS Chatbot Arena에서 "im-also-a-good-gpt2-chatbot"이라는 이름으로 등장했고, 많은 사람들이 이 모… -
Udio: 프롬프트로 생성하는 AI 음악 (사용법)
Udio: 프롬프트로 생성하는 AI 음악 (사용법)
2024.04.212024년 4월 10일, 구글 딥마인드 출신 공학자들이 만든 오디오 및 음악 생성 인공지능 서비스인 Udio가 베타 버전을 공개했습니다. 이전에도 Suno, Stable Audio 등의 음악 생성 서비스가 있었지만, Udio 역시 간단한 프롬프트로 음악을 생성할 수 있는 획기적인 서비스를 선보였습니다. Udio는 사용자가 원하는 음악 유형에 대한 설명을 입력하면, AI 시스템이 프롬프트에 맞게 독특하고 고품질의 음악을 생성합니다. 비록 인간이 작곡한 음악을 완전히 대체할 수는 없겠지만, 음악가와 음악 애호가 모두에게 강력한 도구가 될 것으로 기대되고 있습니다. 현재 사용자 급증으로 인한 서버 과부하 이슈를 겪고 있기는 하지만, 사람이 없는 시간대에는 40초 만에 30초짜리 곡 2개를 금방 만들어낼 수 있… -
Meta: Llama 3 발표
Meta: Llama 3 발표
2024.04.192024년 4월 18일, Meta에서 새로운 대형 언어 모델인 Llama 3을 공개했습니다. 이 모델은 8B(80억)과 70B(700억) 두 가지 버전으로 제공되며, 다양한 애플리케이션에 적합하도록 사전 훈련 및 지시어 튜닝이 완료된 상태입니다. 매개변수 4,050억 개에 달하는 'Llama 3'는 오는 7월 출시할 예정입니다. Meta AI Meta AI Use Meta AI assistant to get things done, create AI-generated images for free, and get answers to any of your questions. Meta AI is built on Meta's latest Llama large language model and uses Emu, o…
댓글을 사용할 수 없습니다.