반응형

AI 분야는 지속적인 혁신과 발전의 흐름 속에서 또 다른 역사적인 순간을 맞이하였습니다. 2023년 3월 14일, OpenAI는 GPT-4를 세상에 공개하였는데, 이는 AI의 대화 능력이 단순한 텍스트 기반에서 벗어나 이미지와 텍스트를 동시에 처리할 수 있는 멀티모달 시스템으로 발전했음을 의미했습니다.

 

더 똑똑해진 GPT-4 발표! 무엇이 달라졌을까?

독일 마이크로소프트 CTO 안드레아스 브라운은 2023년 3월 9일 독일에서 개최한 이벤트(AI in Focus-Digital Kickoff)에서 "다음 주 GPT-4가 공개될 예정이다"라고 깜짝 발표를 했습니다. 텍스트뿐만 아니라

yunwoong.tistory.com

 

ChatGPT의 진화: 이제 보고 듣고 말한다

세상은 끊임없이 변화하고 있으며, 그 중심에는 기술의 발전이 있습니다. 특히 인공 지능 분야에서의 혁신은 우리의 일상을 크게 바꾸고 있습니다. 그중에서도 대화형 AI, 챗봇의 발전은 눈에 띄

yunwoong.tistory.com

이전에 저는 GPT-4의 발표와 관련하여 그 특징 중 하나인 멀티모달 기능에 대해 간략하게 언급한 바 있습니다. 당시에는 이 기능이 앞으로 사용이 가능할 것이다라고 소개만 되었지, 실제로 사용자들이 사용하는 것은 불가능했습니다. 그러나 최근의 업데이트를 통해 'Chat with images'라는 기능이 실제로 도입되었고, 이를 통해 사용자들은 이미지를 포함한 대화를 통해 AI와 더욱 풍부하고 다양한 상호작용을 할 수 있게 되었습니다.

이번 글에서는 이 'Chat with images' 기능의 동작 원리와 사용 방법, 그리고 이를 통해 얻을 수 있는 새로운 경험에 대해 자세히 알아보도록 하겠습니다.


#1. Chat with images를 사용하기 위한 준비

먼저, GPT-4의 사용자 인터페이스로 이동합니다.

메뉴 옵션 중에서 'Default' 항목을 선택합니다. 이는 기본 설정 모드로 전환해 주는 단계입니다.

이후, 텍스트 입력창 바로 옆에 위치한 이미지 아이콘을 찾을 수 있습니다. 이 아이콘은 이미지 업로드 버튼으로, 이를 클릭하면 이미지를 선택할 수 있는 창이 열립니다.

이제 준비는 끝났습니다. 원하는 이미지를 선택하여 업로드하면, GPT-4는 해당 이미지를 기반으로 대화를 진행하게 됩니다.

반응형

#2. 활용 사례

다음으로 소개할 활용 사례들은 모두 직접 수행해 본 결과를 기반으로 합니다.

1) 이미지 기반 대화

Chat with images 기능은 다양한 상황에서 활용될 수 있습니다. 그중에서도 OpenAI의 공식 페이지에서도 이러한 활용법을 예시로 제시하고 있는 여행 중 랜드마크나 특별한 장소의 사진을 찍어 AI와 실시간 대화를 나누는 것입니다.

여행 중 발견한 랜드마크나 독특한 장소의 사진을 찍어 GPT-4에 업로드하면, 해당 이미지에 대한 흥미로운 정보나 설명을 실시간으로 받아볼 수 있습니다. 예를 들어, 유럽 여행 중 파리의 오르세 미술관을 방문하여 사진을 찍었다면, 해당 사진을 GPT-4에 업로드하면 오르세 미술관의 역사나 특징, 그리고 주변 관광지 정보 등 다양한 내용을 AI와의 대화를 통해 알아볼 수 있습니다. 이렇게 Chat with images 기능을 활용하면 여행 중에도 새로운 지식을 얻을 수 있으며, 랜드마크에 대한 깊은 이해와 함께 더욱 풍부한 여행 경험을 즐길 수 있습니다.

이미지 기반 대화의 활용 사례는 무궁무진합니다. 특히 일상의 소소한 순간에서도 이 기능의 편리함을 느낄 수 있습니다. 예를 들어, 냉장고 안의 식재료들로 무엇을 요리할지 고민된다면, GPT-4에게 도움을 청할 수 있습니다. 냉장고 안의 식재료들을 잘 찍은 사진을 GPT-4에 업로드하면, 해당 식재료를 활용한 다양한 요리 레시피나 메뉴를 추천받을 수 있습니다. 이를 통해, 평소에는 생각하지 못했던 창의적인 요리 아이디어나 새로운 레시피를 알게 될 수 있습니다.

의료 분야에서도 큰 가능성을 보여줍니다. 특히, X-RAY와 같은 의료 영상을 통한 진단 도움이 그 예시 중 하나입니다. X-RAY 영상을 GPT-4에 제공하면, AI는 해당 영상을 분석하여 특정 부위나 이상 징후에 대한 정보를 제공할 수 있습니다. 물론, 이러한 정보는 전문적인 의사의 진단을 대체할 수 없습니다. 그러나 초기 판단이나 참고 자료로서, 혹은 의사와 환자 간의 의사소통을 보조하는 도구로 활용될 수 있습니다. 이렇게 의료 영상 분석을 통한 진단 도움은 의료진이 더욱 정확하고 빠른 판단을 내릴 수 있게 도와줄 것입니다.

복잡한 그래프나 차트를 ChatGPT에 제시하면, 이를 분석하여 주요 트렌드, 패턴, 그리고 가능한 의미를 해석해 줄 수 있습니다. 사용자는 그래프 이미지를 업로드하고, ChatGPT에게 특정 데이터 포인트나 변화에 대한 설명을 요청할 수 있습니다. ChatGPT는 그래프의 정보를 분석하고, 해당 데이터가 어떤 의미를 가지는지, 또 어떤 결론을 내릴 수 있는지에 대한 방법을 제공할 것입니다. 이러한 기능은 데이터 해석의 과정을 간소화하고, 더 빠른 의사 결정을 가능하게 합니다.


2) 이미지 인식을 통한 개발 지원

개발자로서의 경험을 바탕으로, 이미지 인식 기술이 어떻게 미래의 개발 방식에 영향을 미칠 수 있는지 생각해 보면, 그 가능성은 무궁무진합니다. 특히 GPT-4와 같은 고도의 AI 기술이 통합되면, 현재의 개발 방식이 크게 혁신될 가능성이 있습니다.

예를 들어, 이미지에서 각 사람들의 나이 정보를 추출하고 연산하는 로직을 구현한다고 가정해 봅시다. 현재의 방식에서는 이미지의 전처리, 특정 영역의 추출, OCR(광학 문자 인식) 수행, 그리고 연산 로직을 각각 따로 구현해야 합니다.

이미지는 테스트 목적으로 생성한 데이터로 실제 존재하는 데이터는 아님

하지만 미래의 개발 방식에서는, 이미지를 AI에게 제공하고 "이 이미지에서 나이 정보를 추출하고 연산해 줘"라는 단순한 질의만으로 모든 과정이 한 번에 처리될 수 있습니다. 이렇게 복잡한 과정을 단순화하고 통합하는 것은 개발자에게 큰 편의를 제공하며, 개발 시간과 노력을 크게 줄일 수 있을 것입니다.

위와 유사한 또 하나의 흥미로운 예시로 진료비 계산서를 들 수 있습니다. 진료비 계산서는 일반적으로 여러 항목과 금액, 기간 등의 정보가 복잡하게 배열된 표 형태로 제공되는 이미지입니다. 이런 이미지에서 진료기간과 환부 부담 금액 같은 중요한 정보를 정확하게 추출하는 것은 까다로운 작업입니다. 표의 각 컬럼과 로우, 그리고 그 사이의 연관성을 정확하게 파악하고 이해해야만 원하는 정보를 올바르게 추출할 수 있습니다. 실제로, 이러한 표의 구조와 내용을 완벽하게 인식하고 분석하는 것은 많은 연구와 노력이 필요한 문제였습니다.

이미지는 테스트 목적으로 생성한 데이터로 실제 존재하는 데이터는 아님

그러나 최신의 이미지 인식 기술을 활용하면, 이러한 복잡한 표에서도 "진료기간과 환부 부담 금액을 알려줘"라는 단순한 질의만으로 필요한 정보를 즉시 얻을 수 있습니다. AI는 표의 구조와 내용을 빠르게 파악하고, 원하는 정보를 정확하게 추출하여 제공합니다.

개발의 초기 단계에서는 종종 손으로 스케치를 그려 아이디어를 형상화하는 경우가 많습니다. 이러한 손그림 스케치를 통해 복잡한 개발 과정을 시작하기 전에 디자인이나 구조를 미리 계획할 수 있습니다. 웹 로그인 페이지를 볼펜으로 대략적인 스케치 했습니다. 정말 대충 했습니다.

이렇게 그린 스케치를 사진으로 찍어 GPT-4에 업로드하고 해당 스케치를 기반으로 JavaScript 코드를 만들어 달라고 요청했습니다.

생성된 코드를 실제로 테스트해 보니, 제가 손으로 그린 스케치와 놀랍게도 매우 유사한 결과물이 나타났습니다. 물론, 모든 결과물이 완벽할 수는 없습니다. 만약 생성된 코드나 디자인에 마음에 들지 않는 부분이 있다면, GPT-4에게 추가적인 수정 요청을 할 수 있습니다. 이를 통해 원하는 결과물에 한 걸음 더 가까워질 수 있습니다.

이렇게 AI와의 상호작용을 통해, 개발 과정이 더욱 간편하고 효율적으로 진행될 수 있습니다. AI의 도움을 받아 원하는 결과물을 더 빠르게 얻을 수 있는 것은 정말로 신기한 경험입니다.


우리가 지금 경험하고 있는 AI와 이미지 인식 기술의 결합은 마치 상상이 현실이 되는 느낌을 줍니다. 일상의 간단한 순간부터 전문적인 개발 과정까지, AI는 우리의 생각과 아이디어를 현실로 전환하는 놀라운 파트너로 변모하고 있습니다. GPT-4와 같은 고도의 AI 기술은 단순한 정보 제공을 넘어, 우리의 아이디어와 생각을 현실로 만들어주는 놀라운 파트너가 되어주고 있습니다. 이미지를 통한 대화, 코드 생성, 의료 영상 분석 등 다양한 활용 사례를 통해 그 가능성을 확인할 수 있었습니다.

앞으로도 AI와 이미지 인식 기술은 계속 발전하며, 우리의 삶에 더 많은 혁신과 변화를 가져다줄 것입니다. 이러한 기술의 발전을 지켜보며, 그 속에서 새로운 가능성과 기회를 찾아 나가는 것은 우리 모두의 도전이 될 것입니다.

마지막으로, AI와 함께하는 미래는 더욱 밝고 흥미로운 경험들로 가득 찰 것이라 확신하며 그 길을 함께 걸어 나가는 모든 이들에게 희망과 기대를 담아 마무리하겠습니다.

 

ChatGPT: 'Voice Conversations'으로 이젠 듣고 말한다

이전에는 "ChatGPT: 'Chat with Images'로 이젠 본다"라는 주제로 이미지와의 대화 기능을 소개했었습니다. 이번에는 ChatGPT가 어떻게 '말한다'는 것인지에 대해 다루려 합니다. ChatGPT: 'Chat with Images'로 이

yunwoong.tistory.com

 

반응형