인재 DB 등록 시 유의사항

CLOSE

채용공고 지원 시 유의사항

CLOSE
로그인 선택

이미지 내의 개인정보 탐지 기술 개발 - 연구계획(1)

easypyeong 22.06.23
388 2 0

1. 연구 과제 소개

1.1. 연구 배경

  • 「개인정보 보호법」에서 정의하는 개인정보는 살아 있는 개인에 관한 정보로 개인의 성명, 주민등록번호 등 인적 사항부터 사회·경제적 지위와 상태, 건강·의료, 재산, 문화 활동 및 정치적 성향과 같은 내면의 비밀에 이르기까지 그 종류가 매우 다양하고 폭 넓다.

  • SKT에서 보관하고 있는 얼굴, 이름, 주소 등의 다양한 이미지 데이터로부터 **PII Detection[1]**을 통해 개인정보를 탐지해 주어야 한다.

  • 실시간으로 많은 데이터가 들어오고, 개인정보 포함 유무에 따른 데이터 보관/파기 방법이 달라짐에 따라 빠르고 정확한 개인정보 탐지를 필요로 한다.


    < SKT에서 정의[2]한 개인정보 범주 >

    image.png

1.2. 연구 목표

  • Focal Loss[3] 등을 활용해 Hard Negative Example에 민감하지 않은 “Robust한 모델”을 개발한다.

  • S3등의 클라우드에 있는 다양한 데이터 셋을 한번에 학습시킴으로써 “End-to-End 기반 모델”을 제안한다.

  • 다양한 Augmentation 및 Transformer 구조를 통한 “높은 성능”을 도모한다.

  • SR/CR[4] 등 “경량화”를 위한 기법과 모델을 사용해 학습시킴으로써 “실시간에 근사한 속도”를 제안한다.

2. 연구 과제 수행 계획


  • 우리는 위의 표에서 ‘1차 대상’에 포함되는 정보를 탐지하는 작업을 수행한다.

  • 계좌번호, 신용카드, 주민등록번호, 이름, 주소 등의 정보들은 정규식[5]으로 어느 정도 탐지 할 수 있다.

  • 1차적인 목표는 랜덤한 이미지가 Input으로 들어오면 얼굴 개인정보 포함 여부를 탐지하는 Face Detection Task이다.

  • 2차적인 목표는 랜덤한 이미지가 Input으로 들어오면 언어(이름 및 주소) 개인정보 포함 여부를 탐지하는 Language Detection Task이다

    ※ 우리의 Task는 개인정보를 탐지하는 것에 있고, 탐지 후의 비식별화(ex. 제거, 가명 처리, 데이터 마스킹 등)는 고려하지 않는다.


2.1. 데이터 셋

  • Face Detection에서는 동양인/서양인 모두 잘 탐지해주기 위해 ‘WiderFace[6]’, ‘학습용 한국인 안면이미지 데이터[7]’를 사용한다.

  • 또한 ‘Selfie-Image-Detection-Dataset[8]’을 사용해 사람의 얼굴이 아니거나 사람의 얼굴로 착각할 수 있는 데이터 셋도 같이 학습시킨다.

  • Language Detection에서는 ‘한국어 위키 문장 5M, 단어 54M[9]’ 통해 학습된 KoBERT 모델[9]을 가지고 와서 사용할 계획이다.

2.1.1. WiderFace