인재 DB 등록 시 유의사항

CLOSE

채용공고 지원 시 유의사항

CLOSE
로그인 선택

신고하기

CLOSE
신고사유 (대표 사유 1개)
상세내용 (선택)
0/200
  • 신고한 게시글은 더 이상 보이지 않습니다.
  • 이용약관과 운영정책에 따라 신고사유에 해당하는지 검토 후 조치됩니다.
  • 허위 신고인 경우, 신고자의 서비스 이용이 제한될 수 있으니 유의하시어 신중하게 신고해 주세요.
(이 회원이 작성한 모든 댓글과 커뮤니티 게시물이 보이지 않고, 알림도 오지 않습니다.)

Language-Image Multi-modal AI 기술 연구 - DALL:E 그림 그려줘!

KEANU 22.09.22
338 11 0

DALL:E야, 너는 그림을 어떻게 그리니?

안녕하세요! SKT AI FELLOWSHIP 4기에서 Language-Image Multi-modal AI 기술 연구를 하고 있는 KEANU입니다.

최근 들어 각광 받고 있는 DALL:E의 논문 리뷰를 해보려 합니다. 😁

저희가 하는 연구에 대한 관심이 많으셔서, 보다 쉽고 재미있게 논문 리뷰를 진행하겠습니다!.


저희가 소개해 드릴 모델은 OPEN AI에서 공개한 모델이며, User Text Prompt에서 이미지를 생성하는 Multi-Modal AI 모델입니다.

보통, 그림을 그려본 기억은 다들 있으실 겁니다. 물론 내가 상상한 그림과 직접 그린 그림의 괴리감을 느끼신 분들도 많으실 거고요. 😐

DALL:E 모델이 발표되기 전 까지는 어떤 주제가 문장으로 주어졌을 때, 이를 가지고 그림을 만들어 내는 작업은 오직 인간만이 할 수 있는 일이었습니다.

그러나 DALL:E 논문이 발표되어 미술 영역 또한 AI가 점차 정복 해가고 있죠.

DALL:E 모델은 자연어처리(NLP)와 컴퓨터비전(CV)가 결합된 기술입니다. DALL:E 라는 이름은 초현실주의 화가 '살바도르 달리(Salvador Dali)와 애니메이션 캐릭터인 월-E(WALL-E)에서 영감을 받았다고 합니다.

image.png

DALL:E 이전에는 GAN(Generative Adversarial Network) 모델을 이용한 접근법들이 있었습니다. 그러나 논리적이지 않은 개체 배치, 물체가 왜곡되는 현상 등 부자연스러운 결과가 대부분이었습니다.

비교적 최근에 등장한 GPT-3 모델 (Auto Regressive Transformer) 를 이용한 접근법의 등장으로 성공적인 결과를 보여줬습니다. 그 모델이 바로 'DALL:E'입니다.

Paper: https://arxiv.org/abs/2102.12092

Dataset

DALL:E 모델은 3가지 데이터셋을 모아서 학습했으며, 대략 2억 5천만장의 이미지-텍스트 쌍으로 이루어진 데이터를 사용했습니다.

첫번째는, 구글에서 제공하는 'Conceptual Caption Dataset'입니다. 해당 데이터셋은 대략 3백만개의 이미지-텍스트 데이터로 이루어져 있습니다.

image.png

링크 : https://ai.google.com/research/ConceptualCaptions/


두 번째는 YFCC100M 데이터 셋입니다. 약 1억개의 이미지와 80만개의 동영상으로 이루어져 있습니다.