OCR
Claude 3 API 활용: Vision (OCR) - Python
Claude 3 API 활용: Vision (OCR) - Python
2024.03.12"Claude 3 API 활용: Vision (시각적 질문 응답)"에 이어, 이번 글에서는 Claude 3 API의 또 다른 중요 기능인 OCR(광학 문자 인식)에 대해 알아보겠습니다. OCR 기능을 통해 이미지 속 텍스트를 효율적으로 인식하고 추출하는 방법을 살펴보며, Claude 3 API가 제공하는 이미지 처리 능력의 다양한 측면을 더 깊이 이해할 수 있을 것입니다. 기본 설정 Claude 3 API를 활용하기 전에 필요한 기본 설정 과정을 살펴보겠습니다. 이 과정은 Claude 3 API와의 통신을 위한 준비 단계로, 필요한 패키지를 임포트 하고, API 키를 설정하여 API 클라이언트 인스턴스를 초기화하는 작업을 포함합니다. Python 기본 구성은 이전 글을 참고하시기 바랍니다. Import ..
GPT-4V(ision)를 이용한 OCR - (Python)
GPT-4V(ision)를 이용한 OCR - (Python)
2023.11.26이번 글에서는 GPT-4V를 활용한 OCR에 대해 알아보겠습니다. OCR (Optical Character Recognition)은 이미지에서 텍스트를 추출하고 인식하는 기술입니다. 이 기술은 문서 스캔, 명함 인식, 자동 번호판 인식 등 다양한 분야에서 활용됩니다. GPT-4V를 이용하면, 이미지 내의 텍스트를 효과적으로 추출하고 처리할 수 있습니다. #1. 필수 패키지 설치 및 준비 GPT-4V를 활용한 이미지 인식 프로젝트를 시작하기 전에, 필요한 Python 패키지들을 설치하고 준비하는 과정이 필요합니다. 1) 패키지 설치 먼저, 필요한 Python 라이브러리를 설치해야 합니다. 이를 위해 Python의 패키지 관리자인 pip를 사용합니다. 다음 명령어를 통해 필요한 패키지들을 설치할 수 있습니다..
[ OCR ] 한글 인식에 탁월한 성능, 적은 용량의 PaddleOCR 사용하기 - Python
[ OCR ] 한글 인식에 탁월한 성능, 적은 용량의 PaddleOCR 사용하기 - Python
2023.07.05PaddleOCR 이란? PaddleOCR은 중국의 인터넷 기업인 바이두(Baidu)가 만든 딥러닝 플랫폼 PaddlePaddle로 구현된 오픈 소스 OCR(Optical Character Recognition)입니다. 다양한 언어를 지원하며, 이미지와 문서에서 텍스트를 인식할 수 있습니다. PaddleOCR의 경량 모델은 14.8M로 매우 가벼워 모바일 등 다양한 플랫폼에서 사용이 가능합니다. 또한 중국어, 영어 이외에도 한국어를 포함하여 80개 이상의 다양한 언어를 지원합니다. PaddleOCR의 장점은 아래와 같습니다. 다양한 언어 지원 이미지와 문서에서 텍스트 인식 빠른 속도와 높은 정확도 다양한 플랫폼 지원 PaddleOCR는 다양한 최첨단 OCR 관련 알고리즘을 지원하며, 이를 바탕으로 산업용..
문서이해 Solution 개발 (VisionOCR)
문서이해 Solution 개발 (VisionOCR)
2023.01.02OCR (Optical Character Recognition) 이란 기술은 이미지 속에 글자가 어디에 위치해 있는지 찾고 어떤 글자인지를 판별하는 기술입니다. 가족관계증명서, 등본, 사업자등록증, 보험 처리를 위한 의료진단서, 영수증, 주민등록증 촬영을 할 때 우리 주변에서 이 기술이 적용된 사례들을 어렵지 않게 찾아 볼 수 있습니다. 그만큼 실용적이고 중요한 기술입니다. 기업들은 오래전부터 OCR을 주목해왔고 다양한 방식으로 연구개발하며 적용해 왔습니다. 하지만 여전히 OCR이 기업이나 다양한 프로젝트에서 오르내리는 것은 아직 제대로 정착시키지 못했다는 점을 방증하는 것이기도 합니다. 실제 OCR 도입을 원하는 고객을 만나보면 소비자의 기대는 저만치 앞서 나가 있는데 기술이 따라오지 못하는 형국이라고..
[ OCR ] Google Cloud Vision API 를 이용한 OCR 개발 - Python
[ OCR ] Google Cloud Vision API 를 이용한 OCR 개발 - Python
2022.05.04Google 에서는 매우 정확하게 이미지의 정보를 추출할 수 있는 API 제공합니다. Google Cloud Vision API는 많은 기능이 존재하지만 이 글에서는 이미지에서 텍스트의 영역을 감지하고 문자 인식(OCR)을 수행하는 API에 대해 설명드리도록 하겠습니다. 1. Google Cloud Vision API 키 발급 먼저 Google Cloud Vision API를 엑세스 하기 위해 서비스 계정을 생성하고 비공개 키 파일(.JSON)을 다운로드 해야합니다. Google Cloud Vision API 페이지로 이동하여 [Vision AI 무료로 사용해보기] 또는 우측에 [무료로 시작하기] 버튼을 클릭합니다. 약관 동의 후 계속 진행합니다. API 사용을 위해서는 서비스 생성 및 결제 계정 정보 ..
[ OCR ] EasyOCR 사용하기 - Python
[ OCR ] EasyOCR 사용하기 - Python
2022.01.13EasyOCR은 문자 영역 인식(Detection), 문자 인식(Recognition)을 손쉽게 수행 할 수 있도록 하는 Python 패키지 입니다. EasyOCR은 구현이 간단하고 매우 직관적입니다. 현재 80개이상의 언어를 지원하고 있으며, 꾸준히 Releases 되고 있습니다. 최근에는 손글씨 인식을 목표로 하고 있습니다. EasyOCR은 OCR 오픈소스로 Detection과 Recognition부분으로 나누어져 있으며 Text Detection은 CRAFT를 사용하고 Recognition은 CRNN사용합니다. Framework는 모든 소스가 pytorch로 작성되어있습니다. OCR 수행결과와 텍스트의 Bounding Box 좌표를 얻을 수 있습니다. 또한 한번에 여러 개의 언어 인식도 가능합니다...
[ OCR ] 문자 추출 및 인식 (EAST text Detector Model) - Python
[ OCR ] 문자 추출 및 인식 (EAST text Detector Model) - Python
2022.01.13일반적으로 OCR에서 원하는 영역을 추출하는 방법은 이전 글에서 설명드린 것처럼, 그래디언트를 적용하고 단락으로 그룹화하여 조건식으로 특징을 입력하여 찾습니다. 문제는 통제되지 않은 촬영 환경에서 촬영한 사진에서 텍스트를 감지하는 것은 매우 어렵다는 것입니다. 시야각은 텍스트와 평행하지 않고 빛이나 조명에 의해 지나치게 어둡거나 밝을 수도 있습니다. EAST 문자 감지 모델은 Text가 흐리거나 기울어진 환경에서도, 부분적으로 가려직 경우에도 찾아낼 수 있습니다. EAST는 An Efficient and Accurate Scene Text Detector의 약자로 Zhou et al.의 2017년 논문을 기반으로 하는 딥러닝 문자 감지기입니다. 논문에 따르면 EAST는 720p 이미지에서 방향과 상관없이..
[ Python ] 간단한 MNIST 모델 (OCR) 만들기
[ Python ] 간단한 MNIST 모델 (OCR) 만들기
2021.11.29전체 Source는 Github에 있습니다. 1. Keras로 MNIST 모델생성 from keras.datasets import mnist from keras.models import Sequential from keras.layers.core import Dense, Dropout, Activation from keras.optimizers import Adam from keras.utils import np_utils # MNIST 데이터 읽어 들이기 --- (※1) (X_train, y_train), (X_test, y_test) = mnist.load_data() # 데이터를 float32 자료형으로 변환하고 정규화하기 --- (※2) X_train = X_train.reshape(60000, ..
OCR Solution 개발 (Python)
OCR Solution 개발 (Python)
2021.01.29OCR은 입력, 손글씨 또는 인쇄 된 이미지 형태의 텍스트를 조작 할 수있는 기계 인코딩 텍스트 데이터로 치환하는 것입니다. 최근 AI, 자동화(RPA 등) 도입으로 많은 관심을 받고 있습니다. OCR의 품질 OCR에 대한 관심이 높아지면서 연구와 투자가 활발해지면서 인식률이 많이 올라간 상황이지만 여전히 OCR에서 한글의 인식률은 매우 저조합니다. 영어의 경우 글자의 수는 26자(A, B, C….)이지만 한글의 경우 완성형으로 2,350자, 조합형으로는 11,172자이니 학습의 양이 많을 뿐 아니라 결과 또한 오인식 될 확률이 높기 때문입니다. 한 줄로 쓰는 영어, 서유럽 언어와는 달리 받침이 존재하고 문자 모양이 복잡한 한글의 경우는 이미지 조금만 틀어져도 두 줄로 인식될 수 있어 한글의 인식률은 매..