문서이해 Solution 개발 (VisionOCR)
OCR (Optical Character Recognition) 이란 기술은 이미지 속에 글자가 어디에 위치해 있는지 찾고 어떤 글자인지를 판별하는 기술입니다. 가족관계증명서, 등본, 사업자등록증, 보험 처리를 위한 의료진단서, 영수증, 주민등록증 촬영을 할 때 우리 주변에서 이 기술이 적용된 사례들을 어렵지 않게 찾아 볼 수 있습니다. 그만큼 실용적이고 중요한 기술입니다.
기업들은 오래전부터 OCR을 주목해왔고 다양한 방식으로 연구개발하며 적용해 왔습니다. 하지만 여전히 OCR이 기업이나 다양한 프로젝트에서 오르내리는 것은 아직 제대로 정착시키지 못했다는 점을 방증하는 것이기도 합니다. 실제 OCR 도입을 원하는 고객을 만나보면 소비자의 기대는 저만치 앞서 나가 있는데 기술이 따라오지 못하는 형국이라고 입을 모아 말합니다.
많은 빅테크 기업들이 이미 다양한 방식으로 OCR을 개발해왔고 최근에는 대부분 REST API형태로 서비스를 제공하고 있습니다. 물론 사용해보면 과거보다 한글에 대한 인식율도 매우 좋아졌고 처리속도도 빨라 졌습니다. 하지만 클라우드 OCR은 엔진은 클라우드에 위치하고 REST API를 이용하여 이미지를 받아 결과를 전달하는 형식이기때문에 클라우드 OCR은 기업에서 사용하는 경우 몇가지 제약사항이 있습니다.
- 클라우드 OCR을 사용하기 위해서는 네트워크 연결이 필요합니다. 폐쇄망을 사용하는 경우 사용이 불가합니다.
- REST API를 이용하기 때문에 네트워크로 인한 지연 시간이 발생할 수 있습니다.
- OCR수행을 위해 이미지 업로드가 필요합니다. 보안이 민감한 업무의 경우는 사용할 수 없습니다.
- 수행 횟수에 따라 비용이 많이 들 수 있습니다.
실제 여러 고객들을 인터뷰해보면 개인정보를 포함한 서류는 보안상의 문제로 클라우드 OCR 도입은 검토할 수 없었으며 또한 대부분 설치형 OCR을 도입한 사례가 있었지만 낮은 인식율로 인해 반자동에 대한 거부감이 있었습니다.
문서이해 Solution
과거 2019년에 OCR 프로젝트를 한 적이 있었는데, 당시 만든 OCR 솔루션을 이용하여 기능 개선 및 확대적용을 위한 프로젝트를 2022년에 4개월간 수행하게 되었습니다. 문서이해 Solution은 이미지가 들어오면 분류(Classification) 후 이미지 전처리가 진행됩니다. 이후 필요한 영역을 Detection하고 OCR을 수행하고 후속 처리를 통해 추출된 데이터를 의미있게 가공하고 사용자에게 전달합니다.

대상서류
대상서류는 가족관계증명서, 주민등록등본 이렇게 2 종류입니다.

Classification
EfficientNet 모델을 이용하여 3가지 서식으로 분류함 (가족관계증명서, 주민등록등본, 기타)

Pre Processing
전처리를 통해 높은 인식율이 보장될 수 있도록 보정

Object Detection
필요한 영역(ROI)는 학습시킨 YOLOv5 모델을 이용

Recognition
카카오 NLP pororo 활용, Customizing 통한 한글 인식 속도/정확도 향상

Post Processing
Text Clustering을 통해서 의미있는 단위로 가공하고 정규화, 오인식 보정을 거쳐 인식율을 높임



문서이해 Solution 성능 및 비즈니스 성과

사실 많은 사람이 AI나 RPA를 이용한 사업을 준비하다 보면 기술과 고객의 요구사항이 상당히 큰 괴리감이 있다고 느끼실 겁니다. 고객의 환경은 예측이 불가하고 만약 환경이 열악하다고 하더라도 추가로 비용을 투자하기가 쉽지는 않습니다. 그렇게 주어진 환경에서 고객의 요구사항을 만족시켜야 하는데, 이게 너무 어렵습니다.
사실 제가 처한 프로젝트 상황은 매우 열악했습니다. 폐쇄망이기도 했고 GPU 사용이 불가한 Windows Server R2 2012 OS였죠. 그리고 하루에 처리해야 하는 이미지 양은 6,000장 정도였습니다. 1개의 프로세스만 수행해도 CPU 사용률이 60%였는데 반드시 10개의 프로세스로 수행되면서 CPU 사용률은 80% 미만을 유지해야 했고 이 모든 과정이 2시간 30분 이내에 종료되어야 했습니다.

지금 생각해도 머리가 지끈거릴 정도로 고생스러웠던 기억이기는 하지만 개인적으로 많이 도움이 되었습니다.
'Project' 카테고리의 다른 글
간편 심사 서비스 (0) | 2023.01.16 |
---|---|
Labeling Tool (UTTU) (2) | 2023.01.03 |
Covid-19 사회적 거리두기 측정 (0) | 2022.02.24 |
Paperless Hospital - 서류관리 Mobile App 개발 (Android & Python) (0) | 2022.02.18 |
EDS(Easy Data Sync) - Database Migration & Synchronization (0) | 2021.03.02 |
댓글
이 글 공유하기
다른 글
-
간편 심사 서비스
간편 심사 서비스
2023.01.16사람에게 의존한 심사 과정의 불편함과 비효율을 해결하기 위한 솔루션을 개발했습니다. 간편 심사 서비스는 손쉽게 서류를 접수하고 심사/규칙을 설정하여 자동으로 심사하는 간편 심사 서비스입니다. Problem 서류 심사라는 업무는 서류를 일일이 살펴보고 정보를 확인한 뒤 결과를 판단하는 작업으로 많은 기업이 이 작업을 위해 많은 인력과 시간을 소비합니다. 또한 서류의 종류와 양은 증가함에 따라 사람에 의존한 서류 심사는 매우 어려움이 많습니다. (정확도, 속도 등) Solution Rule과 OCR, 공통 API등을 활용하여 문서를 빠르게 분석하고 오류 없이 결과를 만드는 솔루션을 생각했습니다. Concept 개발을 하기 전 Concept을 발사믹 스튜디오 (Balsamiq) 통해 그리고 UI/UX와 기능을… -
Labeling Tool (UTTU)
Labeling Tool (UTTU)
2023.01.03Machine Learning은 Data에 매우 의존적이며 부정확한 Labeling Data는 모델의 성능에 악영향을 줍니다. 그렇기때문에 정확한 Labeling 작업이 매우 중요한데 이 작업은 매우 힘들고 고되며 많은 비용과 시간이 소요됩니다. Machine Learning의 Data 중요성은 이전 글을 참고 하시기 바랍니다. AI 프로젝트를 경험했다면 이 Data의 문제를 잘 알고 계실 겁니다. 저는 높은 품질의 데이터로 빠르고 효율적으로 작업을 완료할 수 있도록 Labeling Tool을 만들었으며 Tool의 이름은 UTTU입니다. UTTU 기능 1. 작업 및 프로젝트 관리 프로젝트별 진행 사항을 관리 할 수 있도록 직관적이고 시각적인 대시보드를 제공하며 각 프로젝트의 작업유형, 진행량, 소요 시간… -
Covid-19 사회적 거리두기 측정
Covid-19 사회적 거리두기 측정
2022.02.24코로나19 이후, 즉 포스트 코로나(Post COVID-19) 시대의 세상은 지금과 완전히 다를 것입니다. 이미 각 국가의 고강도 사회적 거리두기 정책으로 인해 보금자리였던 집이 또 하나의 업무 공간으로 탈바꿈하였으며, 오프라인 사회에서 온라인 사회로, 나아가 디지털 사회로 전환하는 발판을 만들어 주었습니다. COVID-19 소위 뉴-노멀이라는 새로운 세상에서 IT는 지금보다 더 큰 역할을 할 것으로 예상됩니다. 언택트(Untact) 문화의 확산, 온라인 소비의 증가, 온라인 교육 등의 생활이 일상화되는 움직임은 국가 간 경계를 뒤로 한 채 전 세계적인 디지털 전환을 가속화할 것이기 때문입니다. 언제 어느 순간 나타날지도 모르는, 어쩌면 이미 다가와 있는 상상 가능한 미래에 사전적으로 대비하기 위해서는 … -
Paperless Hospital - 서류관리 Mobile App 개발 (Android & Python)
Paperless Hospital - 서류관리 Mobile App 개발 (Android & Python)
2022.02.18골칫거리 “종이서류” 동네 병원을 가보면 데스크의 서랍과 가려진 벽면 뒤에는 진료 종이서류로 빼곡하게 쌓여 있습니다. 병원의 종이차트 의무보관 기간은 5년으로, 늘어나는 환자 수 만큼 종이차트 역시 늘어나기 있고 병원은 보관 방법과 폐기 문제를 놓고 골머리를 앓고 있습니다. 그나마 재정에 여유가 있는 대형 병원들은 수십억원의 예산을 투자하여 디지털 사업을 추진하고 있지만 중/소규모의 병의원에서는 단독으로 프로젝트를 외주에 줄만큼 양이 되지 않기 때문에 외부 사업자가 일을 맡지도 않을뿐더러 전문성이 없거나 비싼 비용을 지불해야 하는 경우가 대부분입니다. 특정 의료장비의 경우는 직접 전자 문서화된 데이타로 보관 할 수 있지만, 노후화된 의료장비나 장비의 특성상 출력을 필요로 하는 경우는 종이서류로 존재하게 …
댓글을 사용할 수 없습니다.