Microsoft https://i--model-house.com 연구팀이 또 충격적인 논문을 하나 arXiv에 공개했습니다. 텍스트 언어만 다루는 것이 아니라 비전, 오디오 멀티모달 데이타까지 모두 취급하는 MLLM(Multimodal Large Language Model) 모델인 Kosmos-1을 소개하였습니다.정말 AGI를 https://i--model-house.com 향해 가는 것인가요? 언어, 멀티모달 인식, 행동, 세계 모델링의 융합은 인공 일반 지능을 향한 핵심 단계입니다. 이 작업에서는 일반적인 양식을 인식하고, 맥락에서 학습하며(즉, 소량 학습), 지시를 https://i--model-house.com 따를 수 있는(즉, 제로 샷) 다중 모드 대규모 언어 모델(MLLM)인 Kosmos-1을 소개합니다. 실험 결과에 따르면 Kosmos-1은 (i) 언어 이해, 생성, 심지어 OCR이 필요 없는 NLP(문서 이미지가 https://i--model-house.com 직접 제공됨), (ii) 멀티모달 대화, 이미지 캡션, 시각적 질문 답변 등의 지각 언어 작업, (iii) 설명이 포함된 이미지 인식(텍스트 지시를 통한 분류 지정) 등의 비전 작업에서 https://i--model-house.com 인상적인 성능을 발휘합니다. 또한 언어에서 다중 모달로, 다중 모달에서 언어로 지식을 전달할 수 있는 교차 모달 전달을 통해 MLLM이 이점을 얻을 수 있음을 보여줍니다. 또한 MLLM의 https://i--model-house.com 비언어적 추론 능력을 진단하는 레이븐 IQ 테스트 데이터셋을 소개합니다.Key insights and lessons learned from the paper:- Combining language, perception, and action is an essential step towards https://i--model-house.com artificial general intelligence.- Multimodal Large Language Models (MLLMs) can learn to perceive general modalities, follow instructions, and learn in context.- MLLMs can benefit from cross-modal transfer, https://i--model-house.com i.e., transfer knowledge from one modality to another.- Kosmos-1 achieves impressive performance on a wide range of tasks, including language understanding, generation, perception-language tasks, and vision https://i--model-house.com tasks.