반응형

구글이 현지시간 6일, GPT-4를 능가하는 새로운 AI 모델인 '제미나이(Gemini 또는 제미니)'를 발표했습니다. 이번 발표는 당초 내년 초로 예상되었던 출시 일정을 앞당겨 깜짝 발표를 했습니다.

'제미나이(Gemini)'는 구글이 개발한 가장 유연한 모델로 생성형 AI 애플리케이션에 초점을 맞춰 설계되었으며, Gemini 1.0'은 '울트라(Ultra)', '프로(Pro)', '나노(Nano)'의 세 가지 모델로 구성되어 있습니다. 각 모델은 특정 작업에 최적화되어 다양한 환경에서도 실행이 가능합니다.

  • Gemini Ultra — 가장 크고 능력이 뛰어난 모델로, 매우 복잡한 작업에 적합합니다.
  • Gemini Pro — 다양한 범위의 작업에 걸쳐 확장하기 위한 최고의 모델입니다.
  • Gemini Nano — 온디바이스 작업에 가장 효율적인 모델입니다.

최첨단 성능

제미나이 모델은 이미지, 오디오, 비디오 이해부터 수학적 추론에 이르기까지 다양한 작업에서 엄격한 테스트를 거쳐 성능을 평가받았습니다. 이 모델은 대규모 언어 모델(LLM) 연구 및 개발에 널리 사용되는 32개의 학술 벤치마크 중 30개에서 현재 최고의 결과를 넘어섰습니다.


특히, 제미나이 울트라는 MMLU(대규모 다중 작업 언어 이해) 테스트에서 90.0%라는 높은 점수를 기록하며 인간 전문가를 능가하는 최초의 모델이 되었습니다. MMLU는 수학, 물리학, 역사, 법률, 의학, 윤리 등 57개 과목을 활용해 세계 지식과 문제 해결 능력을 평가합니다. 이전에는 GPT-4가 86.4%의 점수로 최고 기록을 보유하고 있었습니다.

최근 대규모 언어 모델(LLM)들이 벤치마크 테스트에서 높은 점수를 얻었다는 발표가 많았습니다. 이런 발표들은 대체로 GPT-3.5와 같은 이전 모델들을 능가했다는 내용을 포함하고 있습니다. 하지만 이러한 성과는 때때로 벤치마크에 특화된 학습을 통해 얻어진 결과인 경우가 많아, 실제로 모델의 전반적인 능력을 측정하는 것에는 한계가 있을 수 있습니다.

이러한 상황을 의식한 듯, 구글은 최신 벤치마크인 MMMU의 결과도 함께 공개했습니다. MMMU는 멀티모달 작업을 포함하며, 다양한 도메인에 걸쳐 신중한 추론을 필요로 합니다. 제미나이 울트라는 이 MMMU 벤치마크에서 59.4%라는 최첨단 점수를 기록했습니다. 이 점수는 제미나이 울트라가 단순한 벤치마크 성과를 넘어, 다양한 형태의 정보를 처리하고 복잡한 추론을 수행할 수 있는 능력을 갖추고 있음을 나타냅니다.

그러나 주목할 만한 점은, 구글이 자사의 '제미나이' 모델을 OpenAI의 GPT-4와 비교하고 있다는 것입니다. 이는 구글이 현재 OpenAI의 GPT 모델을 매우 중요하게 여기고 있음을 시사합니다. 이러한 비교는 인공지능 분야에서의 경쟁이 얼마나 치열한지를 보여주며, 선도 기업들이 서로의 발전을 의식하며 더 높은 성능과 혁신을 추구하고 있음을 나타냅니다. 구글이 GPT-4를 기준으로 설정하고 있는 것은, GPT-4가 현재 AI 시장에서 가장 강력한 기준으로 인식되고 있음을 반영하는 것이기도 합니다.

정교한 추론 능력

'제미나이 1.0'은 복잡한 서면 및 시각적 정보를 이해하고 분석하는 정교한 멀티모달 추론 능력을 갖추고 있습니다. 방대한 양의 데이터 속에서 중요한 지식을 찾아내는 데 특히 능숙합니다. 수십만 개의 문서에서 정보를 읽고, 필터링하고, 이해하여 통찰력을 추출하는 이 모델의 놀라운 능력은 과학부터 금융에 이르는 다양한 분야에서 디지털 속도로 새로운 혁신을 이끌 것입니다.

텍스트, 이미지, 오디오 등의 이해

제미나이 1.0은 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었습니다. 이로 인해 미묘한 정보를 더 잘 이해하고 복잡한 주제와 관련된 질문에 답할 수 있는 능력을 갖추었습니다. 특히 수학과 물리학과 같은 복잡한 주제에서 이러한 추론을 설명하는 데 뛰어납니다.

고급 코딩 능력

제미나이의 첫 번째 버전은 파이썬, 자바, C++, 고(Go) 등 세계에서 가장 널리 사용되는 프로그래밍 언어로 고품질 코드를 이해하고 생성할 수 있습니다. 다양한 언어로 작업하고 복잡한 정보에 대해 추론할 수 있는 능력 덕분에 전 세계 코딩을 위한 최고의 기반 모델 중 하나가 되었습니다. 제미나이 울트라는 코딩 작업 성능을 평가하기 위한 중요한 업계 표준인 HumanEval과 웹 기반 정보 대신 작성자가 생성한 소스를 사용하는 내부 보유 데이터 세트인 Natural2Code를 포함한 여러 코딩 벤치마크에서 탁월한 성능을 보였습니다.

또한, 제미나이는 더 고급 코딩 시스템의 엔진으로도 사용될 수 있습니다. 구글은 2년 전 프로그래밍 대회에서 경쟁력 있는 수준의 성능을 달성한 최초의 AI 코드 생성 시스템인 알파코드를 선보였습니다. 제미나이의 특수 버전을 사용하여, 구글은 알파코드 2를 만들었는데, 이 시스템은 복잡한 수학과 이론적 컴퓨터 과학을 포함하는 경쟁적 프로그래밍 문제를 해결하는 데 뛰어난 능력을 보입니다.

멀티모달

제미나이의 멀티모달 기능에 대한 기대는 큽니다. 텍스트, 이미지, 오디오 등 다양한 형태의 데이터를 이해하고 분석할 수 있는 이 능력은 AI 분야에서 새로운 혁신의 문을 열 것으로 보입니다. 복잡한 정보를 통합적으로 처리하는 이 기술은 우리가 데이터를 해석하고 활용하는 방식을 근본적으로 변화시킬 잠재력을 지니고 있습니다. 자세한 내용은 Gemini 기술 보고서를 참고하시기 바랍니다.

신뢰할 수 있고 확장 가능한 효율적인 제미나이

구글은 AI에 최적화된 인프라에서 '제미나이 1.0'을 대규모로 학습시켰습니다. 이 과정에는 구글이 자체 설계한 텐서 처리 장치(TPUs) v4와 v5e가 사용되었습니다. 제미나이는 가장 신뢰할 수 있고, 학습에 있어서 확장 가능하며, 서비스 제공 측면에서 가장 효율적으로 설계된 모델입니다.

[출처: Google] Google data center

TPU에서 제미나이는 이전보다 훨씬 빠르게 실행되며, 초기보다 작고 능력이 떨어지는 모델들을 능가합니다. 이 맞춤형 AI 가속기는 구글의 AI 기반 제품들의 핵심으로, 수십억 명의 사용자에게 서비스를 제공하는 검색, 유튜브, 지메일, 구글 지도, 구글 플레이, 안드로이드 등에 사용됩니다. 또한 전 세계의 기업들이 대규모 AI 모델을 비용 효율적으로 교육할 수 있도록 지원합니다.

오늘, 구글은 최신 AI 모델의 학습을 위해 설계된 가장 강력하고 효율적이며 확장 가능한 TPU 시스템인 Cloud TPU v5p를 발표했습니다. 이 차세대 TPU는 제미나이의 개발을 가속화하고 개발자 및 기업 고객이 대규모 생성 AI 모델을 더 빠르게 훈련할 수 있도록 지원하여 새로운 제품과 기능이 고객에게 더 빨리 도달할 수 있도록 돕습니다.

제미나이를 전 세계에 제공하기 위한 준비 중

'제미나이 1.0'은 이제 다양한 제품과 플랫폼을 통해 전 세계에 출시하기 위해 준비하고 있습니다.

바드(Bard)는 더욱 고급스러운 추론, 계획, 이해를 위해 제미나이 프로의 미세 조정된 버전을 사용합니다. 이는 바드 출시 이후 가장 큰 업그레이드이며, 170개 이상의 국가와 지역에서 영어로 제공될 예정입니다. 또한, 가까운 미래에 다양한 모달리티를 지원하고 새로운 언어 및 지역으로 확장할 계획입니다. (아직까지는 한국에서는 사용이 안됩니다.)

구글은 온디바이스 작업을 위해 특별히 설계된 가장 효율적인 모델인 '제미나이 나노(Gemini Nano)'를 스마트폰에 적용하고 있습니다. 이를 통해 사용자들은 더 빠르고 효율적인 모바일 경험을 누릴 수 있게 됩니다. 특히, 픽셀 8 프로는 제미나이 나노를 실행하도록 설계된 최초의 스마트폰으로, 이를 통해 고급 AI 처리 능력을 스마트폰 사용자들에게 직접 제공하게 됩니다. 향후 몇 달 안에, 제미나이는 검색, 광고, 크롬 및 듀엣 AI와 같은 구글의 더 많은 제품과 서비스에서 사용될 것입니다.

구글은 이미 검색에서 제미나이를 실험하고 있으며, 이는 사용자에게 더 빠른 검색 생성 경험(SGE)을 제공하고 있습니다. 미국 내 영어 사용자의 경우 지연 시간이 40% 감소했으며, 품질도 향상되었습니다.

12월 13일부터, 개발자와 기업 고객은 구글 AI 스튜디오 또는 구글 클라우드 버텍스 AI에서 제미나이 프로에 접근할 수 있습니다. 구글 AI 스튜디오는 API 키를 사용하여 신속하게 앱을 프로토타입하고 출시할 수 있는 무료 웹 기반 개발자 도구입니다. 완전 관리형 AI 플랫폼이 필요한 경우 버텍스 AI를 사용하면 제미나이를 맞춤 설정할 수 있으며, 구글 클라우드의 추가 기능을 통해 기업 보안, 안전, 개인정보 보호 및 데이터 거버넌스 및 준수의 이점을 누릴 수 있습니다.

안드로이드 개발자들은 픽셀 8 프로 기기에서 시작하여 안드로이드 14에서 사용 가능한 새로운 시스템 기능인 AICore를 통해 온디바이스 작업을 위한 가장 효율적인 모델인 제미나이 나노로 구축할 수 있습니다.


인공지능 분야는 매일 새로운 발전을 이루고 있습니다. 최근 구글의 제미나이와 OpenAI의 ChatGPT와 같은 기술들이 우리에게 전에 없던 새로운 경험을 제공하고 있습니다. 이 두 기술은 우리 일상에 혁신을 가져오며, 학습, 엔터테인먼트, 비즈니스 등 다양한 분야에서 새로운 기회를 열 것으로 기대됩니다.

이들이 어떤 창의적인 아이디어와 솔루션을 가져올지 상상만 해도 설레는 일입니다. 이러한 최첨단 AI 기술들이 앞으로 우리 삶에 어떤 긍정적인 변화를 가져올지 지켜보는 것은 매우 흥미로운 일이 될 것입니다.


(업데이트) 제미나이에 대한 기대감이 높았지만, 최근 몇 가지 이슈로 인해 그 기대가 다소 줄어들었습니다. 제미나이는 시연 영상 편집 논란에 휩싸였으며, 실제 사용자들 사이에서는 GPT-4와의 비교를 통해 기대에 못 미친다는 의견들이 제기되고 있습니다. 이런 상황은 GPT-4의 뛰어난 성능을 다시 한번 부각하며, 현재 사용되고 있는 GPT-4가 올해 3월 개발된 버전임을 감안하면 더욱 놀라운 일입니다.

제미나이는 앞으로 자신들의 성능을 입증하고 기대치를 충족시킬 숙제가 남아있는 것 같습니다. 제미나이가 앞으로 어떻게 발전하고, 어떤 방식으로 이러한 도전을 극복할지 지켜보는 것도 흥미로운 일이 될 것 같습니다.

반응형