반응형

OCR (Optical Character Recognition) 이란 기술은 이미지 속에 글자가 어디에 위치해 있는지 찾고 어떤 글자인지를 판별하는 기술입니다. 가족관계증명서, 등본, 사업자등록증, 보험 처리를 위한 의료진단서, 영수증, 주민등록증 촬영을 할 때 우리 주변에서 이 기술이 적용된 사례들을 어렵지 않게 찾아 볼 수 있습니다. 그만큼 실용적이고 중요한 기술입니다.

기업들은 오래전부터 OCR을 주목해왔고 다양한 방식으로 연구개발하며 적용해 왔습니다. 하지만 여전히 OCR이 기업이나 다양한 프로젝트에서 오르내리는 것은 아직 제대로 정착시키지 못했다는 점을 방증하는 것이기도 합니다. 실제 OCR 도입을 원하는 고객을 만나보면 소비자의 기대는 저만치 앞서 나가 있는데 기술이 따라오지 못하는 형국이라고 입을 모아 말합니다.

많은 빅테크 기업들이 이미 다양한 방식으로 OCR을 개발해왔고 최근에는 대부분 REST API형태로 서비스를 제공하고 있습니다. 물론 사용해보면 과거보다 한글에 대한 인식율도 매우 좋아졌고 처리속도도 빨라 졌습니다. 하지만 클라우드 OCR은 엔진은 클라우드에 위치하고 REST API를 이용하여 이미지를 받아 결과를 전달하는 형식이기때문에 클라우드 OCR은 기업에서 사용하는 경우 몇가지 제약사항이 있습니다.

  • 클라우드 OCR을 사용하기 위해서는 네트워크 연결이 필요합니다. 폐쇄망을 사용하는 경우 사용이 불가합니다.
  • REST API를 이용하기 때문에 네트워크로 인한 지연 시간이 발생할 수 있습니다.
  • OCR수행을 위해 이미지 업로드가 필요합니다. 보안이 민감한 업무의 경우는 사용할 수 없습니다.
  • 수행 횟수에 따라 비용이 많이 들 수 있습니다.

실제 여러 고객들을 인터뷰해보면 개인정보를 포함한 서류는 보안상의 문제로 클라우드 OCR 도입은 검토할 수 없었으며 또한 대부분 설치형 OCR을 도입한 사례가 있었지만 낮은 인식율로 인해 반자동에 대한 거부감이 있었습니다. 


문서이해 Solution

과거 2019년에 OCR 프로젝트를 한 적이 있었는데, 당시 만든 OCR 솔루션을 이용하여 기능 개선 및 확대적용을 위한 프로젝트를 2022년에 4개월간 수행하게 되었습니다. 문서이해 Solution은 이미지가 들어오면 분류(Classification) 후 이미지 전처리가 진행됩니다. 이후 필요한 영역을 Detection하고 OCR을 수행하고 후속 처리를 통해 추출된 데이터를 의미있게 가공하고 사용자에게 전달합니다.

문서이해 Solution Workflow

대상서류

대상서류는 가족관계증명서, 주민등록등본 이렇게 2 종류입니다.

Classification

EfficientNet 모델을 이용하여 3가지 서식으로 분류함 (가족관계증명서, 주민등록등본, 기타)

Pre Processing

전처리를 통해 높은 인식율이 보장될 수 있도록 보정

Object Detection

필요한 영역(ROI)는 학습시킨 YOLOv5 모델을 이용

Recognition

 카카오 NLP pororo 활용, Customizing 통한 한글 인식 속도/정확도 향상

Post Processing

Text Clustering을 통해서 의미있는 단위로 가공하고 정규화, 오인식 보정을 거쳐 인식율을 높임

Clustering
Normalization
Correct Misrecognition


문서이해 Solution  성능 및 비즈니스 성과


더보기

사실 많은 사람이 AI나 RPA를 이용한 사업을 준비하다 보면 기술과 고객의 요구사항이 상당히 큰 괴리감이 있다고 느끼실 겁니다. 고객의 환경은 예측이 불가하고 만약 환경이 열악하다고 하더라도 추가로 비용을 투자하기가 쉽지는 않습니다. 그렇게 주어진 환경에서 고객의 요구사항을 만족시켜야 하는데, 이게 너무 어렵습니다.

사실 제가 처한 프로젝트 상황은 매우 열악했습니다. 폐쇄망이기도 했고 GPU 사용이 불가한 Windows Server R2 2012 OS였죠. 그리고 하루에 처리해야 하는 이미지 양은 6,000장 정도였습니다. 1개의 프로세스만 수행해도 CPU 사용률이 60%였는데 반드시 10개의 프로세스로 수행되면서 CPU 사용률은 80% 미만을 유지해야 했고 이 모든 과정이 2시간 30분 이내에 종료되어야 했습니다.

지금 생각해도 머리가 지끈거릴 정도로 고생스러웠던 기억이기는 하지만 개인적으로 많이 도움이 되었습니다.

반응형