KoBERT/KoGPT/KoBART 기반 언어처리 Application 개발 - (2) 연구과정

zioo1004 21.08.29
441 5 0

 안녕하세요. 

저희는 KoBERT/KoGPT/KoBART 기반 언어처리 Application 개발이라는 연구 과제에 참여하게 된 SKT AI Fellowship 3기 바른말 고운말 팀입니다. 

이번 글을 통해 저희의 연구 과정을 전달 드리려고 합니다. 

 

1. 연구 진행 과정

이 연구의 전체적인 흐름은 다음과 같습니다. 지금까지는 연구의 방향성과 목표를 정립했고, 연구에 필요한 데이터를 구축하였으며, 가장 기본적인 Baseline 모델을 구축하였습니다. 앞으로는 모델의 성능 향상과 웹 데모 및 API 제작으로 연구를 마무리 지을 계획에 있습니다. 

모델링에 대한 전체적인 흐름을 간략하게 말씀드리겠습니다. 먼저 어떠한 문장이 INPUT으로 들어갔을 때, Hate Speech Detection model (pretrained Kobert 활용)은 이 INPUT 문장이 혐오표현인지 아닌지를 분류합니다. 그리고 혐오표현이라고 탐지 했을 때 Text Style Transfer model (pretrained Kobart 활용)은 이 문장을 순화된 표현으로 변환된 문장을 생성해줍니다. 

 

 

2. 중간 발표 내용

중간 발표에서는 연구 목표와 배경, 혐오 표현 데이터에 대한 소개, 수집 및 전처리 과정 소개, 혐오 표현 탐지 모델 개발, 혐오 표현의 순화 표현으로의 변환 모델 개발, 데모, 앞으로의 계획에 대한 내용을 다루었습니다.  

 

데이터셋은 크게 두가지가 있습니다. (1) Detection 용 데이터셋과 (2) Text Style Transfer 용 데이터셋입니다. Detection 용 데이터셋은 뉴스의 댓글로 구성하였고, Text Style Transfer 용 데이터셋은 데이터 변환 인력을 활용하여 구축을 진행했습니다. 

 

데이터 변환에 앞서 Style Transfer 작업에 대한 기준과 가이드라인을 정립하였고, 1차와 2차에 걸쳐 이 작업은 진행됩니다. 

 

 

혐오 표현 Detection 모델에는 KoBERT를 사용했습니다. 

 

Text Style Transfer 모델에는 Text Generation을 위한 Seq2Seq 모델인KoBART를 사용했습니다. 

 

Streamlit을 이용한 데모 페이지를 만들었고, INPUT에 혐오 표현인 문장을 넣었을 때 혐오 표현이라고 탐지할 확률과 이 문장을 순화한 표현을 나타내도록 구성했습니다.

 

 

3. 앞으로의 계획

앞으로 남은 2개월동안 Text Style Transfer 모델의 성능 향상에 초점을 맞춰 연구를 진행할 예정입니다. 그 이후엔 웹 데모 페이지를 더 개선하고 API를 구축하는 것으로 연구를 마무리 지으려 합니다. 모델의 성능 향상에 대한 구체적인 내용은 다음과 같습니다. 

남은 2개월 동안 이 연구가 잘 마무리될 수 있도록 열심히 연구해나가 최종 발표 때 재미있는 발표를 보여드리고 싶습니다더 즐겁고 유익하게 SKT AI Fellowship 만들어 나갈게요지금까지 도와주신 권득신 멘토님께 감사드리고앞으로 도와주실 김태윤 멘토님 잘 부탁드립니다감사합니다박하은이민정 담당자님 여러 모로 많은 도움 주셔서 감사합니다heart 

 

zioo1004 님의 최신 블로그

더보기

관련 블로그