ChatGPT의 진화: 이제 보고 듣고 말한다
세상은 끊임없이 변화하고 있으며, 그 중심에는 기술의 발전이 있습니다. 특히 인공 지능 분야에서의 혁신은 우리의 일상을 크게 바꾸고 있습니다. 그중에서도 대화형 AI, 챗봇의 발전은 눈에 띄게 진화하고 있습니다. 특히, OpenAI의 ChatGPT는 그 선봉에 서 있습니다. OpenAI는 현지시간으로 25일 새로운 음성과 이미지 기능을 ChatGPT에 출시할 것이라고 발표했습니다.
ChatGPT can now see, hear, and speak
We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.
openai.com
챗GPT의 새로운 음성 및 이미지 기능
사실, ChatGPT 4의 발표 때부터 OpenAI는 멀티모달 기능을 통해 이미지 인식 및 분석 능력을 소개했었습니다. 이때부터 음성 인식이 멀티모달의 다음 단계가 될 것이라는 예상이 커졌습니다. 특히 OpenAI가 이미 'Whisper'라는 음성 인식 기술을 보유하고 있었기 때문에, 이러한 예상은 당연했습니다.
이제 사용자는 단순히 텍스트만으로 질문하는 것이 아니라, 음성을 통해 자연스럽게 대화할 수 있게 되었습니다. 또한 이미지를 첨부하여 더 구체적인 질문을 할 수 있게 되었습니다.

이러한 기능의 핵심은 Whisper라는 기술과 새로운 TTS(Text-to-Speech) 모델에 있습니다. Whisper를 통해 사용자의 음성은 텍스트로 변환되며, ChatGPT의 답변은 전문 성우의 목소리로 변환되어 사용자에게 전달됩니다. 특히 새로운 TTS 모델은 몇 초의 샘플 목소리만으로도 해당 사람의 목소리를 그대로 재현하는 놀라운 능력을 보여줍니다. 이 기술은 Spotify의 팟캐스트 번역 기능에도 활용되어, 다양한 언어로의 번역이 가능하게 만들어 주었습니다.

음성 기능을 사용하려면, 모바일 앱에서 설정으로 이동한 후 '새로운 기능'을 선택하고 '음성 대화'를 활성화하세요. 홈 화면의 오른쪽 상단에 위치한 헤드폰 버튼을 클릭하면 5가지 다양한 음성 중 원하는 음성을 선택할 수 있습니다. 이 새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로도 사람과 유사한 오디오를 생성할 수 있는 최신 텍스트 음성 변환 모델을 기반으로 합니다. OpenAI는 전문 성우들과 협력하여 이러한 목소리를 개발하였습니다. 또한, 사용자의 음성 입력은 오픈 소스 음성 인식 시스템인 'Whisper'를 통해 텍스트로 변환됩니다.
이미지 기능 역시 뛰어난 성능을 자랑합니다. 사용자는 한 번에 여러 이미지를 첨부할 수 있으며, ChatGPT는 이미지 속의 텍스트뿐만 아니라 사물까지도 상세하게 인식합니다. 이를 통해 사용자는 도구나 장치의 사용법을 물어보거나, 냉장고 속의 식재료를 기반으로 레시피에 대한 대화를 나눌 수 있게 되었습니다.

이미지 기능에 대해서는, 사용자는 사진 버튼을 탭 하여 이미지를 캡처하거나 선택할 수 있습니다. iOS나 Android에서는 먼저 플러스 버튼을 탭 해야 합니다. 여러 이미지에 대해 대화를 나누거나 그리기 도구를 사용하여 어시스턴트를 안내할 수도 있습니다. 이미지 이해 기능은 멀티모달 GPT-3.5 및 GPT-4에 의해 제공됩니다. 이 모델들은 사진, 스크린샷, 텍스트와 이미지가 함께 포함된 문서와 같은 다양한 이미지에 대한 언어적 추론 능력을 적용합니다.
ChatGPT: 'Chat with Images'로 이젠 본다 (사용법)
AI 분야는 지속적인 혁신과 발전의 흐름 속에서 또 다른 역사적인 순간을 맞이하였습니다. 2023년 3월 14일, OpenAI는 GPT-4를 세상에 공개하였는데, 이는 AI의 대화 능력이 단순한 텍스트 기반에서 벗
yunwoong.tistory.com
ChatGPT: 'Voice Conversations'으로 이젠 듣고 말한다
이전에는 "ChatGPT: 'Chat with Images'로 이젠 본다"라는 주제로 이미지와의 대화 기능을 소개했었습니다. 이번에는 ChatGPT가 어떻게 '말한다'는 것인지에 대해 다루려 합니다. ChatGPT: 'Chat with Images'로 이
yunwoong.tistory.com
음성과 이미지 인식의 혁신과 그 의미
OpenAI는 안전하고 유익한 AGI를 구축하는 것을 목표로 하고 있습니다. OpenAI는 이를 위해, 기능을 점진적으로 사용할 수 있게 하면서 시간이 지남에 따라 개선사항을 도출하고 위험을 완화하는 전략을 채택하고 있습니다. 특히 음성 및 이미지 인식과 같은 고급 모델이 도입될 때, 이러한 전략은 더욱 중요하게 생각합니다.
음성 기능의 중요성 및 위험성
새로운 음성 기술은 몇 초의 실제 음성만으로 현실적인 합성 목소리를 생성할 수 있는 능력을 가지고 있습니다. 이는 많은 창의적이고 접근성 중심의 응용 프로그램의 문을 엽니다. 그러나 이러한 능력은 공공 인물을 가장하거나 사기를 저지르려는 악의적인 행위자에게 새로운 위험을 초래할 수 있습니다. 이러한 이유로 OpenAI는 이 기술을 특정 사용 사례인 음성 채팅에 적용하고 있습니다.
이미지 입력의 중요성 및 도전
Vision 기반 모델도 새로운 도전을 제시합니다. 사람에 대한 환각에서 고위험 영역에서 이미지의 해석에 의존하기까지 다양합니다. 배포에 앞서, OpenAI는 극단적인 사상 및 과학적 전문성과 같은 분야에서의 위험을 위해 모델을 레드 팀 테스터와 함께 테스트하였다고 합니다. ChatGPT의 다른 기능과 마찬가지로, Vision은 사용자의 일상생활을 돕기 위한 것입니다. 시각 장애인, 저시력 사용자를 위한 무료 모바일 앱인 "Be My Eyes"를 협업을 통해 활용 방법을 파악했다고 합니다.
ChatGPT의 이러한 업데이트는 기술업계의 AI 기술 경쟁을 더욱 치열하게 만들고 있고 빅테크 기업들은 AI 기반 도구를 핵심 제품에 통합하려는 노력을 지속하고 있습니다. 예를 들어, 구글은 최근 자사의 AI 챗봇 바드에 대한 업데이트를 발표하였고, 아마존 역시 AI 음성 비서 알렉사의 업데이트를 준비하고 있습니다. ChatGPT의 음성 및 이미지 기능은 2주 이내에 공개될 예정이며, ChatGPT Plus 및 Enterprise 사용자에게 우선 제공될 것으로 보입니다.
'Insights > IT Trends' 카테고리의 다른 글
ChatGPT의 DALL·E3 사용법 (0) | 2023.10.09 |
---|---|
Windows 11과 함께하는 AI, 코파일럿(Copilot) 공식 출시 (0) | 2023.10.07 |
OpenAI DALL·E 3 발표: ChatGPT와 통합으로 이미지 생성 AI의 진화 (0) | 2023.09.22 |
ChatGPT 사용자 맞춤형 지시 기능 추가 (0) | 2023.07.31 |
ChatGPT Code Interpreter: 기능과 사용방법 (0) | 2023.07.12 |
댓글
이 글 공유하기
다른 글
-
ChatGPT의 DALL·E3 사용법
ChatGPT의 DALL·E3 사용법
2023.10.09지난 9월 21일, OpenAI는 이미지 생성 AI 'DALL·E3'를 발표하였습니다. 이후 Bing Image Creator를 통해 이 기술을 체험해 볼 수 있었으나, ChatGPT 내에서는 사용할 수 없는 상태였습니다. 10월 5일부터 ChatGPT Plus 및 Enterprise 사용자들을 대상으로 DALL·E3의 사용이 순차적으로 공개되기 시작했습니다. DALL·E3의 상세 내용은 아래 글을 참고하시기 바랍니다. OpenAI DALL·E 3 발표: ChatGPT와 통합으로 이미지 생성 AI의 진화 최근 몇 년 동안 AI(인공지능) 분야는 빠른 속도로 발전하고 있으며, 그 중심에는 이미지 및 텍스트 생성 기술이 있습니다. 이미지 생성 영역에서는 Midjourney, leonardo.ai, Adobe… -
Windows 11과 함께하는 AI, 코파일럿(Copilot) 공식 출시
Windows 11과 함께하는 AI, 코파일럿(Copilot) 공식 출시
2023.10.07지난 5월 Microsoft Build 2023에서 처음으로 소개된 코파일럿(Copilot) 기능이 기대와 호기심 속에 많은 사용자들의 주목을 받았습니다. 그리고 지난 2023년 9월 26일, Windows 11에 코파일럿(Copilot) 기능이 공식적으로 출시되었습니다. Microsoft Build 2023: AI와 개발자의 새로운 지평 Microsoft의 연례 개발자 컨퍼런스인 'Build 2023'이 5월 23일부터 25일까지 미국 워싱턴주 시애틀에서 성공적으로 열렸습니다. 이번 회의는 온라인과 오프라인 하이브리드 방식으로 진행되었으며, 특 yunwoong.tistory.com Windows 코파일럿(Copilot)은 Windows 11 Version 22H2 (KB5030310) 업데이트에 포함되… -
OpenAI DALL·E 3 발표: ChatGPT와 통합으로 이미지 생성 AI의 진화
OpenAI DALL·E 3 발표: ChatGPT와 통합으로 이미지 생성 AI의 진화
2023.09.22최근 몇 년 동안 AI(인공지능) 분야는 빠른 속도로 발전하고 있으며, 그 중심에는 이미지 및 텍스트 생성 기술이 있습니다. 이미지 생성 영역에서는 Midjourney, leonardo.ai, Adobe Firefly와 같은 다양한 플랫폼들이 등장하며 경쟁이 치열해지고 있는데, 이러한 배경 속에서 OpenAI는 이미지 생성 AI 분야의 리더로서의 위치를 더욱 강화하기 위해 DALL·E의 업그레이드 버전인 'DALL·E 3'을 공개했습니다. 기존의 DALL·E 시스템의 성능을 크게 향상하는 동시에, ChatGPT와의 통합을 통해 사용자는 다양한 경험을 할 수 있습니다. 나아가서 사용자는 더욱 간편하게 고품질의 이미지를 생성할 수 있게 만들며, 이미지 생성 기술의 접근성과 활용도를 높이는 중요한 발판이 될 … -
ChatGPT 사용자 맞춤형 지시 기능 추가
ChatGPT 사용자 맞춤형 지시 기능 추가
2023.07.31OpenAI는 사용자의 요구에 더욱 잘 답변할 수 있도록 ChatGPT를 맞춤화하는 새로운 기능을 추가하였습니다. 이 기능은 현재 Plus 플랜에서 베타 버전으로 시작하여, 앞으로 몇 주 안에 모든 사용자에게 공개될 예정입니다. 사용자 맞춤형 지시(Custom instructions) 기능을 통해 ChatGPT가 응답할 때 이를 고려해야 답변하도록 설정하는 것입니다. Custom instructions for ChatGPT We’re rolling out custom instructions to give you more control over how ChatGPT responds. Set your preferences, and ChatGPT will keep them in mind for all futu…
댓글을 사용할 수 없습니다.