반응형

세상은 끊임없이 변화하고 있으며, 그 중심에는 기술의 발전이 있습니다. 특히 인공 지능 분야에서의 혁신은 우리의 일상을 크게 바꾸고 있습니다. 그중에서도 대화형 AI, 챗봇의 발전은 눈에 띄게 진화하고 있습니다. 특히, OpenAI의 ChatGPT는 그 선봉에 서 있습니다.  OpenAI는 현지시간으로 25일 새로운 음성과 이미지 기능을 ChatGPT에 출시할 것이라고 발표했습니다.

 

ChatGPT can now see, hear, and speak

We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.

openai.com

챗GPT의 새로운 음성 및 이미지 기능

사실, ChatGPT 4의 발표 때부터 OpenAI는 멀티모달 기능을 통해 이미지 인식 및 분석 능력을 소개했었습니다. 이때부터 음성 인식이 멀티모달의 다음 단계가 될 것이라는 예상이 커졌습니다. 특히 OpenAI가 이미 'Whisper'라는 음성 인식 기술을 보유하고 있었기 때문에, 이러한 예상은 당연했습니다.

이제 사용자는 단순히 텍스트만으로 질문하는 것이 아니라, 음성을 통해 자연스럽게 대화할 수 있게 되었습니다. 또한 이미지를 첨부하여 더 구체적인 질문을 할 수 있게 되었습니다.

이러한 기능의 핵심은 Whisper라는 기술과 새로운 TTS(Text-to-Speech) 모델에 있습니다. Whisper를 통해 사용자의 음성은 텍스트로 변환되며, ChatGPT의 답변은 전문 성우의 목소리로 변환되어 사용자에게 전달됩니다. 특히 새로운 TTS 모델은 몇 초의 샘플 목소리만으로도 해당 사람의 목소리를 그대로 재현하는 놀라운 능력을 보여줍니다. 이 기술은 Spotify의 팟캐스트 번역 기능에도 활용되어, 다양한 언어로의 번역이 가능하게 만들어 주었습니다.

음성 기능을 사용하려면, 모바일 앱에서 설정으로 이동한 후 '새로운 기능'을 선택하고 '음성 대화'를 활성화하세요. 홈 화면의 오른쪽 상단에 위치한 헤드폰 버튼을 클릭하면 5가지 다양한 음성 중 원하는 음성을 선택할 수 있습니다. 이 새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로도 사람과 유사한 오디오를 생성할 수 있는 최신 텍스트 음성 변환 모델을 기반으로 합니다. OpenAI는 전문 성우들과 협력하여 이러한 목소리를 개발하였습니다. 또한, 사용자의 음성 입력은 오픈 소스 음성 인식 시스템인 'Whisper'를 통해 텍스트로 변환됩니다.

이미지 기능 역시 뛰어난 성능을 자랑합니다. 사용자는 한 번에 여러 이미지를 첨부할 수 있으며, ChatGPT는 이미지 속의 텍스트뿐만 아니라 사물까지도 상세하게 인식합니다. 이를 통해 사용자는 도구나 장치의 사용법을 물어보거나, 냉장고 속의 식재료를 기반으로 레시피에 대한 대화를 나눌 수 있게 되었습니다.

이미지 기능에 대해서는, 사용자는 사진 버튼을 탭 하여 이미지를 캡처하거나 선택할 수 있습니다. iOS나 Android에서는 먼저 플러스 버튼을 탭 해야 합니다. 여러 이미지에 대해 대화를 나누거나 그리기 도구를 사용하여 어시스턴트를 안내할 수도 있습니다. 이미지 이해 기능은 멀티모달 GPT-3.5 및 GPT-4에 의해 제공됩니다. 이 모델들은 사진, 스크린샷, 텍스트와 이미지가 함께 포함된 문서와 같은 다양한 이미지에 대한 언어적 추론 능력을 적용합니다.

 

ChatGPT: 'Chat with Images'로 이젠 본다 (사용법)

AI 분야는 지속적인 혁신과 발전의 흐름 속에서 또 다른 역사적인 순간을 맞이하였습니다. 2023년 3월 14일, OpenAI는 GPT-4를 세상에 공개하였는데, 이는 AI의 대화 능력이 단순한 텍스트 기반에서 벗

yunwoong.tistory.com

 

ChatGPT: 'Voice Conversations'으로 이젠 듣고 말한다

이전에는 "ChatGPT: 'Chat with Images'로 이젠 본다"라는 주제로 이미지와의 대화 기능을 소개했었습니다. 이번에는 ChatGPT가 어떻게 '말한다'는 것인지에 대해 다루려 합니다. ChatGPT: 'Chat with Images'로 이

yunwoong.tistory.com

반응형

음성과 이미지 인식의 혁신과 그 의미

OpenAI는 안전하고 유익한 AGI를 구축하는 것을 목표로 하고 있습니다. OpenAI는 이를 위해, 기능을 점진적으로 사용할 수 있게 하면서 시간이 지남에 따라 개선사항을 도출하고 위험을 완화하는 전략을 채택하고 있습니다. 특히 음성 및 이미지 인식과 같은 고급 모델이 도입될 때, 이러한 전략은 더욱 중요하게 생각합니다.

음성 기능의 중요성 및 위험성

새로운 음성 기술은 몇 초의 실제 음성만으로 현실적인 합성 목소리를 생성할 수 있는 능력을 가지고 있습니다. 이는 많은 창의적이고 접근성 중심의 응용 프로그램의 문을 엽니다. 그러나 이러한 능력은 공공 인물을 가장하거나 사기를 저지르려는 악의적인 행위자에게 새로운 위험을 초래할 수 있습니다. 이러한 이유로 OpenAI는 이 기술을 특정 사용 사례인 음성 채팅에 적용하고 있습니다.

이미지 입력의 중요성 및 도전

Vision 기반 모델도 새로운 도전을 제시합니다. 사람에 대한 환각에서 고위험 영역에서 이미지의 해석에 의존하기까지 다양합니다. 배포에 앞서, OpenAI는 극단적인 사상 및 과학적 전문성과 같은 분야에서의 위험을 위해 모델을 레드 팀 테스터와 함께 테스트하였다고 합니다. ChatGPT의 다른 기능과 마찬가지로, Vision은 사용자의 일상생활을 돕기 위한 것입니다. 시각 장애인, 저시력 사용자를 위한 무료 모바일 앱인 "Be My Eyes"를 협업을 통해 활용 방법을 파악했다고 합니다.


ChatGPT의 이러한 업데이트는 기술업계의 AI 기술 경쟁을 더욱 치열하게 만들고 있고 빅테크 기업들은 AI 기반 도구를 핵심 제품에 통합하려는 노력을 지속하고 있습니다. 예를 들어, 구글은 최근 자사의 AI 챗봇 바드에 대한 업데이트를 발표하였고, 아마존 역시 AI 음성 비서 알렉사의 업데이트를 준비하고 있습니다. ChatGPT의 음성 및 이미지 기능은 2주 이내에 공개될 예정이며, ChatGPT Plus 및 Enterprise 사용자에게 우선 제공될 것으로 보입니다.

반응형