🚀 Master Prompt Engineering and building AI Agents in our NEW courses! Use PROMPTING20 for 20% off ➜ Enroll now
Multimodal CoT

Prompt CoT Multimodal

Zhang et ai. (2023) (opens in a new tab) propĂŽs recentemente uma abordagem de solicitação de cadeia de pensamento multimodal. O CoT tradicional foca na modalidade de linguagem. Em contraste, o Multimodal CoT incorpora texto e visĂŁo em uma estrutura de dois estĂĄgios. A primeira etapa envolve a geração de raciocĂ­nio com base em informaçÔes multimodais. Isso Ă© seguido pela segunda fase, inferĂȘncia de respostas, que aproveita os fundamentos informativos gerados.

O modelo CoT multimodal (1B) supera o GPT-3.5 no benchmark ScienceQA.

MCOT

Fonte da imagem: Zhang et al. (2023) (opens in a new tab)

Leitura adicional: