"Claude 3 API 활용: Vision (시각적 질문 응답)"에 이어, 이번 글에서는 Claude 3 API의 또 다른 중요 기능인 OCR(광학 문자 인식)에 대해 알아보겠습니다. OCR 기능을 통해 이미지 속 텍스트를 효율적으로 인식하고 추출하는 방법을 살펴보며, Claude 3 API가 제공하는 이미지 처리 능력의 다양한 측면을 더 깊이 이해할 수 있을 것입니다.
기본 설정
Claude 3 API를 활용하기 전에 필요한 기본 설정 과정을 살펴보겠습니다. 이 과정은 Claude 3 API와의 통신을 위한 준비 단계로, 필요한 패키지를 임포트 하고, API 키를 설정하여 API 클라이언트 인스턴스를 초기화하는 작업을 포함합니다.Python 기본 구성은 이전 글을 참고하시기 바랍니다.
Import Package
import anthropic
import os
import httpx
import base64
import imghdr
import io
from PIL import Image as PILImage
import matplotlib.pyplot as plt
from pathlib import Path
Set Variable
만약 API 키 생성 및 설정 방법에 대해 자세히 알고 싶으시다면, 이전 글에서 제공된 안내를 참고하시기 바랍니다.이전 글에서는 Claude API 접근을 위한 계정 생성부터 API 키 발급 및 환경 변수 설정에 이르기까지의 과정을 자세히 설명하고 있습니다.
api_key = os.environ.get("ANTHROPIC_API_KEY")
client = anthropic.Anthropic(api_key=api_key)
Vision 처리 : OCR
Claude 3 API를 활용한 OCR(광학 문자 인식) 수행과 그 성능에 대해 다뤄보겠습니다. OCR 기능을 통해 이미지 내에 포함된 텍스트를 정확하게 인식하고 추출하는 과정을 살펴보면서, Claude 3 API의 이미지 처리 능력을 평가해 보겠습니다. 실제 예제를 통해 API의 성능을 측정하고, 다양한 유형의 이미지에서 텍스트를 얼마나 정확하고 효율적으로 인식할 수 있는지 알아보겠습니다.
위 텍스트를 보면 김윤웅이라는 이름과 Kim Yunwoong이라는 영문 이름, 그리고 숫자와 기호로 구성된 '0123456789#$' 문자열을 확인할 수 있습니다.
복잡한 표 형태에서 OCR 사용 예
Claude 3 API의 OCR 기능을 이용해 표에서 특정 정보를 추출하는 작업을 진행해 보겠습니다. 이미지 내 텍스트 추출이 흰색 배경에서의 간단한 글자 인식에서 우수한 성능을 보였다면, 이제는 더 복잡한 구조인 표 형태에서 원하는 데이터를 정확하게 찾아내는 능력을 테스트할 차례입니다.
Response: 이 진료비 상세내역서에 따르면, 환자부담금액은 45,000원입니다. 상세 내역 중 "계" 행을 보면 환자부담금으로 45,000원이 기재되어 있습니다.
구조화된 데이터 형태로 변환
Claude 3 API의 능력 중 하나는 이미지 내의 텍스트를 분석하여 구조화된 데이터 형태로 변환하는 것입니다. 이를 통해, 이미지로 제공된 정보를 JSON 파일과 같은 형식으로 추출할 수 있습니다. 이러한 기능은 다양한 문서나 이미지에서 정보를 추출하고, 이를 프로그램이 처리하기 쉬운 형태로 변환하는 데 매우 유용합니다.
The image shows a display of fresh fish at a fish market. There are handwritten signs in front of the fish indicating the name and price per pound for three types of fish:
1. FreshWholeBlackCod at $15.99/lb
2. FreshBronzino at $14.99/lb
3. FreshRainbowTrout at $11.99/lb
The fish are arranged on a bed of ice, with some greenery added as garnish. A worker at the fish market can be seen in the background.
여기서 실제 가격이 18.99인데 15.99로 잘못 반환된 경우가 있습니다. (이 이미지의 경우 Gemini에서는 정상적으로 인식) 이러한 오류는 Claude 3 API가 이미지 내의 복잡한 텍스트를 정확하게 인식하고 해석하는 데 한계가 있음을 보여줍니다. 특히, Gemini와 같은 다른 AI 모델과 비교했을 때 Claude 3가 모든 분야에서 더 뛰어나다고 단정 지을 수는 없을 것 같습니다.
Claude 3 API의 Vision 기능을 활용한 이미지 분석과 텍스트 추출은 많은 가능성을 열어주지만, 모든 상황에서 완벽한 결과를 보장하지는 않습니다. 특정 조건이나 복잡한 이미지에서는 예상과 다른 결과가 나올 수 있습니다. 하지만 GPT, Gemini 외에도 이러한 놀라운 성능을 보이는 멀티모달 모델이 등장하는 것은 매우 고무적입니다.
현대 비즈니스 환경에서 테스트 자동화는 소프트웨어 개발 과정의 핵심 요소로 자리 잡았습니다. 많은 기업들이 효율성과 정확성을 높이기 위해 다양한 테스트 자동화 도구를 도입해 왔습니다. 그러나 기존 개발 방식과 레거시 코드의 복잡성은 자동화 테스트의 적용을 어렵게 만들었습니다. 과거의 규정과 업무 변화에 급히 대응하며 추가된 예외 로직은 코드를 복잡하게 만들었고, 이로 인해 단위 테스트가 사실상 불가능해지는 상황에 이르렀습니다. Ui-Path나 Auto Anywhere와 같은 솔루션을 활용하는 시도도 있었지만, 이러한 도구들 역시 한계에 직면했습니다. 또한, Selenium을 이용한 자동화 접근 방식은 HTML 구조와 DOM에 대한 깊은 이해를 요구하며, 개발자에게 상당한 어려움을 줍니다. 개발자들은 더 …
Claude API 사용을 위한 환경 설정, 필수 라이브러리 설치, 그리고 첫 API 요청 전송 과정에 대해 안내드립니다. 본 가이드는 Python SDK를 중심으로 설명하되, TypeScript SDK와 직접 HTTP 통합도 지원함을 알려드립니다. 자세한 정보는 클라이언트 SDK 및 API 참조 문서에서 확인 가능합니다. 사전 준비 사항 Claude API 접근 방법과 API 키 생성은 이전에 작성된 가이드를 참고하세요. Claude에 대한 API 접근이 가능한 계정 API 키 (계정 설정을 통해 사용 가능) Python 3.7.1 이상 버전 설치 Claude API 활용 가이드: 기본 설정 최근 인공지능 기술의 발전은 그야말로 눈부신 속도로 진행되고 있습니다. 특히 이미지 처리 분야에서는 다양한 AI…
댓글을 사용할 수 없습니다.