image.png

<aside> 📎 첨부파일

**Github → Report → Blog →**

</aside>


☑️ 프로젝트 소개

<aside> 💡 이번 프로젝트는 다국어 영수증에서 글자를 검출하기 위해 OCR(Optical Character Recognition) 기술을 활용하는 것이 목표다. 특히 데이터 중심(Data-Centric) 접근법을 통해 학습 데이터를 추가하고 수정하며 모델의 성능을 향상시키는 데 초점을 맞췄다. CV-05조는 다양한 실험과 데이터 라벨링을 통해 최적의 모델을 구축하고 최종적으로 높은 성능을 달성하는 것을 목표로 했다.

</aside>


☑️ 프로젝트 진행과정 및 나의 역할

1. 초기 설정 및 EDA (Exploratory Data Analysis)

<aside>

프로젝트 초기에는 데이터셋을 분석하고 이를 바탕으로 모델을 설계하기 위한 기초 작업을 진행했다. 데이터셋은 중국어, 일본어, 태국어, 베트남어 영수증으로 구성되어 있었으며 각 언어별로 100개의 이미지가 제공되었다.

image.png

</aside>

2. 모델 실험 및 가설 설정

<aside>

1차 가설: 구분선 및 잘린 텍스트 삭제, 새로운 데이터셋 추가

구분선과 잘린 텍스트가 모델의 성능에 부정적인 영향을 미치는 것을 확인하고 이를 제거하는 작업을 진행

이 과정에서 정제기준을 엄격하게 잡았다. 점선을 제외한 특수문자 패턴(++++,====)의 경우는 BBOX를 유지.

F1 score 기준 0.7377 → 0.8669 향상

</aside>