본문 바로가기

multimodal

(1)

Generative Pretraining in Multimodality Paper: https://arxiv.org/abs/2307.05222v1 AI-generated Summary Emu는 multimodal context 내에서 이미지와 텍스트를 생성하는 데 탁월한 성능을 발휘하는 강력한 Transformer 기반 모델입니다. 이 모델은 하나의 모델에 대한 모든 자동 회귀 학습 프로세스를 통해 이미지, 텍스트, 비디오 등 단일 모달리티 또는 멀티모달 데이터 입력을 원활하게 처리할 수 있습니다. 이 모델은 시각 신호를 embedding으로 인코딩하고 이를 텍스트 토큰과 결합하여 interleaved input sequence를 형성합니다. 그런 다음 Emu는 다음 텍스트 토큰을 분류하거나 멀티모달 시퀀스에서 다음 시각적 임베딩을 회귀시키는 것을 목표로 end-to-end..

이전 1 다음

티스토리툴바