구글의 AI 혁신: Gemini 2.0부터 Veo2까지
구글이 최신 AI 모델인 Gemini 2.0 Flash을 공개했습니다. 이번에는 OpenAI의 12일 이벤트 중간에 발표를 진행했는데요, 작년과는 달리 이번에는 구글이 훨씬 더 준비된 모습을 보여줬습니다.

주요 특징과 발전된 기능들
- Flash의 성능 향상
- Gemini 1.5 Pro보다 2배 빠른 속도
- 더 낮은 지연시간으로 실시간 대화 가능
- 성능은 향상되었는데 속도는 더 빨라진 게 인상적
- 확장된 멀티모달 기능
- 텍스트, 이미지, 오디오 입출력 모두 지원
- 실시간 음성 변환과 다국어 지원
- 마치 실제 비서와 대화하는 것 같은 자연스러움
- 네이티브 도구 통합
- 구글 검색 직접 연동
- 코드 실행 기능 내장
- 서드파티 도구와도 연동 가능

혁신적인 연구 프로젝트들
1. 프로젝트 아스트라 (Astra)
OpenAI의 Advanced Voice Mode와 비슷한 기능입니다. 지난 5월 구글 I/O에서 처음 선보였는데, 하루 전 OpenAI가 라이브 행사에서 먼저 공개하면서 다소 아쉬움이 있었습니다. 이때 아스트라는 OpenAI 대비 지연 시간이나 성능면에서 부족해 보였는데, 이번 데모 영상을 보니 많이 발전한 모습이네요. 특히 구글의 강점인 검색, 렌즈, 지도까지 통합되어 있어 실용성도 한층 높아진 것 같습니다.

- 더 나은 대화 능력: 다국어, 혼합 언어 지원
- 새로운 도구 활용: 구글 검색, 렌즈, 지도 통합
- 10분 단위 대화 기억 기능
- 추후 스마트 글라스 연동 예정이라는 점이 흥미로움

2. 프로젝트 마리너 (Mariner)
최근 Anthropic의 Computer Use와 유사한 기능입니다. Computer Use가 전반적인 컴퓨터 제어에 초점을 맞췄다면, 마리너는 웹 브라우저에 집중했네요. 브라우저 확장 프로그램 형태로 제공되어 설치와 사용이 쉽고, 보안을 위해 권한을 제한한 점도 실용적인 접근으로 보이네요. 특히 화면을 직접 이해하고 작업을 수행할 수 있다는 점에서 웹 브라우징의 새로운 가능성을 보여주고 있습니다.
브라우저 화면의 모든 요소(텍스트, 코드, 이미지, 폼 등)를 실시간으로 이해하고 처리할 수 있으며, 구매와 같은 민감한 작업에서는 반드시 사용자 확인을 받도록 설계된 점도 눈에 띕니다. 이런 안전성 중심의 설계는 실제 업무 환경에서 더욱 신뢰할 수 있는 도구가 될 것 같네요.

- 웹브라우저 화면 실시간 이해
- WebVoyager 벤치마크에서 83.5% 달성
- 안전을 위한 제한된 권한 설정이 인상적

3. 프로젝트 줄스(Jules)
이 기능은 GitHub Copilot과 정면으로 경쟁할 것으로 보이는데, 특히 워크플로우 통합이라는 차별점이 있어 기대가 됩니다. 개발자들이 줄스를 통해 반복적인 작업에서 벗어나 더 창의적인 개발에 집중할 수 있게 될 것 같네요.
- 개발자들의 오랜 꿈이었던 AI 페어 프로그래머
- GitHub 통합으로 실제 개발 워크플로우에 자연스럽게 녹아듦
- 코드 리뷰, 버그 수정, 문서화 작업 지원
- 현재 엄선된 개발 그룹을 통해 테스트를 진행 중
- 2025년 초 공개 예정이며, https://labs.google.com/jules/home에서 대기 신청 가능
- 비동기 개발의 효율성을 위해 문제 분석과 코딩 작업을 Jules에 위임 가능
- Jules가 작성한 코드는 개발자가 쉽게 검토하고 프로젝트에 병합 가능
- 진행 상황을 실시간으로 추적하고 우선순위 조정도 가능

멀티미디어 생성 능력 강화
1. 베오2(Veo2)
- OpenAI의 Sora 출시에 맞춰 공개된 구글의 비디오 생성 AI
- 4K 해상도의 동영상 생성 가능
- 다양한 영화적 기법 지원
- 장르 및 렌즈 지정
- 로우 앵글 추적 샷
- 클로즈업 등 카메라 동작
- 배경 흐림 처리
- 특정 피사체 초점 처리
주목할만한 발전
- 실제 물리 법칙에 대한 이해도 향상
- 인간의 움직임과 표현의 자연스러움 개선
- 사실감과 디테일 크게 향상
- 육안으로 보이지 않는 'SynthID' 워터마크 포함
활용 계획
- 구글랩스의 'VideoFX'로 현재 이용 가능 (대기자 명단에 등록)
- 2024년 유튜브 쇼츠와 다른 제품으로 확장 예정
- 사용자 접근성 점진적 확대 중
특히 Sora가 공개되어 다소 실망스럽다는 평가를 받는 동안, Veo2는 더 정확하고 세밀한 영상을 만들어내며 사용자들의 극찬을 받고 있다는 점이 인상적입니다. 실제 영상을 보면 물리적 움직임이나 카메라 워크가 매우 자연스럽고, 특히 렌즈 효과나 초점 처리 같은 전문적인 영상 기법도 잘 구현해내고 있네요.

2. 이마젠3(Imagen 3)
주요 특징
- 더 밝고 잘 구성된 이미지 생성 능력
- 다양한 예술 스타일 정확한 구현:
- 인상주의
- 추상적 애니메이션
- 다양한 예술 장르 해석
- 각종 평가에서 경쟁 모델 대비 우수한 성능 기록
활용 방법
- 구글랩스의 'ImageFX'를 통해 즉시 사용 가능
- 위스크(Whisk)와 통합되어 더욱 강력한 기능 제공:
- 특정 주제, 장면, 스타일 기반 이미지 생성
- 다양한 디자인 변형 및 리믹스
- Gemini의 시각적 이해 능력과 결합
혁신적인 점
- Gemini가 이미지의 캡션을 작성하고, 이 설명을 이마젠3에 입력해 결과물 생성
- 더 자연스러운 구도와 조명 처리
- 텍스트 프롬프트에 대한 더 정확한 해석
베오2와 함께 구글의 생성형 AI 라인업을 강화하고 있는 이마젠3는 특히 예술적 표현력이 크게 향상된 것이 특징입니다. DALL-E 3나 Midjourney와 비교해도 손색없는 퀄리티를 보여주고 있죠.

Gemini 2.0 Flash Thinking: 구글의 추론 능력 강화 모델
구글이 Gemini 2.0 Flash의 새로운 버전인 'Flash Thinking'을 예고 없이 공개했습니다. OpenAI의 o3 발표에 맞춰 공개된 이 모델은 현재 Google AI Studio에서 무료로 사용해 볼 수 있는데요.
주요 특징
1. 강화된 추론 능력
- Chain of Thought(사고의 연쇄) 기능 지원
- 문제 해결 과정을 단계별로 보여줌
- o1처럼 내부적으로만 처리하는 것이 아닌, 전체 사고 과정 공개
- 자체 검증 및 수정 능력 보유
2. 성능과 접근성
- LMSYS Chatbot Arena 기준 o1과 동등한 성능 기록
- 무료로 즉시 사용 가능 (API 비용 없음)
- 32,000 토큰 컨텍스트 윈도우 지원
- 텍스트와 이미지 입력 처리 가능
특히 인상적인 점
- 문제를 해결하기 전에 질문을 정확히 이해하려 노력
- 오류를 발견하면 스스로 수정하는 능력
- 복잡한 추론이 필요한 문제도 단계별로 명확하게 해결
- 이미지 기반 추론 문제도 처리 가능
활용 예시
- 수학 문제 해결
- 각 단계별 사고 과정 표시
- 자체 검증 단계 포함
- 오류 발견 시 수정 과정 공개
- 이미지 기반 추론
- 이미지 속 정보 분석
- 시각적 퍼즐 해결
- 단계별 시각적 추론 과정 설명
이번 발표는 구글이 OpenAI의 o3에 대응하는 동시에, 추론 능력에서 한 단계 더 발전된 모습을 보여주었다는 점에서 의미가 있습니다. 특히 무료로 제공된다는 점이 큰 장점이 될 것 같네요.

향후 계획
구글은 2025년 초 더 큰 규모의 모델들과 함께 Gemini 2.0을 정식 출시할 예정이며, 검색 서비스에도 도입될 예정이라고 합니다. 특히 6세대 TPU 트릴리엄을 활용해 더욱 강력한 성능을 제공할 것으로 기대됩니다.
'Insights > IT Trends' 카테고리의 다른 글
효과적인 AI 에이전트 구축: Anthropic의 가이드 (0) | 2025.01.01 |
---|---|
OpenAI: 12일간의 업데이트 총정리 (1) | 2024.12.22 |
OpenAI: 12일간의 특별 이벤트 마지막 날, o3와 o3-mini 공개 (1) | 2024.12.21 |
OpenAI, Santa Mode와 영상 통화가 가능한 Advanced Voice 공개 (0) | 2024.12.14 |
OpenAI: 강력한 추론 엔진 o1 출시 (0) | 2024.12.06 |
댓글
이 글 공유하기
다른 글
-
효과적인 AI 에이전트 구축: Anthropic의 가이드
효과적인 AI 에이전트 구축: Anthropic의 가이드
2025.01.01이 글은 Anthropic이 발표한 "Building effective agents" (2024년 12월 20일) 문서를 바탕으로 정리한 글입니다. Building effective agentsA post for developers with advice and workflows for building effective AI agentswww.anthropic.com1. 에이전트란 무엇인가?에이전트의 정의는 관점에 따라 다양할 수 있습니다. Anthropic은 에이전트 시스템을 두 가지로 구분합니다.1-1. 워크플로우(Workflows)정의: 미리 정의된 코드 경로를 통해 LLM과 도구들을 조율하는 시스템장점: 예측 가능하고 안정적인 결과 제공사용 예: 고객 문의 처리, 문서 번역, 데이터 분석1-2. 에… -
OpenAI: 12일간의 업데이트 총정리
OpenAI: 12일간의 업데이트 총정리
2024.12.22OpenAI가 진행한 12일간의 특별 업데이트 이벤트가 끝났습니다. 매일매일 새로운 기술과 기능이 공개되었는데요, 이번 이벤트는 단순한 기능 업데이트를 넘어 AI 기술의 새로운 가능성을 보여준 의미 있는 시간이었습니다. 12일간의 여정을 하나씩 살펴보겠습니다.Day 1: o1 시대의 개막첫날부터 강력한 소식으로 시작했습니다. o1 모델이 모든 유료 사용자에게 공개되었고, 새로운 Pro 요금제($200)가 도입되었죠. 특히 o1 pro mode는 더 오래 생각하고 분석하여 복잡한 문제에서도 정확한 답변을 제공하는 것이 특징이었습니다. OpenAI: 강력한 추론 엔진 o1 출시OpenAI가 12일간의 특별한 업데이트 이벤트를 시작했습니다. 첫날부터 두 가지 중요한 변화가 공개되었는데요, 하나는 그동안 프리뷰… -
OpenAI: 12일간의 특별 이벤트 마지막 날, o3와 o3-mini 공개
OpenAI: 12일간의 특별 이벤트 마지막 날, o3와 o3-mini 공개
2024.12.21OpenAI가 진행한 12일간의 특별 업데이트 이벤트가 대단원의 막을 내렸습니다. 마지막 날 공개된 것은 바로 차세대 추론 모델인 o3와 o3-mini였는데요, 이는 상당히 의미 있는 발표였습니다.최근 인공지능 시장의 주도권을 놓고 구글과 OpenAI가 치열한 경쟁을 벌이고 있습니다. OpenAI가 ChatGPT의 검색 기능을 무료화한 날, 구글은 OpenAI의 'Sora'와 경쟁하는 동영상 생성 AI 'Veo2'를 공개했죠. 또한 구글은 에이전트 기능이 강화된 'Gemini 2.0'을 발표하며 OpenAI를 견제했습니다.이런 경쟁 구도는 이번이 처음이 아닙니다. 지난 5월 구글 I/O 행사 직전, OpenAI는 새로운 모델 '4o'와 'Advanced Voice Mode'를 전격 공개하며 구글 I/O에… -
OpenAI, Santa Mode와 영상 통화가 가능한 Advanced Voice 공개
OpenAI, Santa Mode와 영상 통화가 가능한 Advanced Voice 공개
2024.12.14OpenAI가 진행 중인 12일간의 특별 업데이트 이벤트의 여섯 번째 날, Santa Mode와 Advanced Voice에 영상/화면 공유 기능이 추가되었습니다. 사실 이 기능은 지난 5월 13일 OpenAI의 스프링 제품 업데이트 라이브 스트리밍 이벤트에서 이미 시연되었던 것인데요. 저는 오늘부터 드디어 실제 사용이 가능해졌습니다.Advanced Voice에 추가된 영상 기능기존 Advanced Voice는 음성으로만 대화가 가능했지만, 이제는 실시간 영상 통화와 화면 공유까지 지원합니다. ChatGPT 앱에서 Advanced Voice 모드로 들어가면 하단에 비디오 버튼이 새롭게 추가된 것을 확인할 수 있는데요.실시간 영상 통화화면 공유 기능50개 이상의 언어 지원자연스러운 대화 속도와 감정 표현등…
댓글을 사용할 수 없습니다.