🚀 Master Prompt Engineering and building AI Agents in our NEW courses! Use PROMPTING20 for 20% off ➜ Enroll now
Prompt CoT multimodal

Prompting Multimodal CoT

Zhang et al. (2023) (opens in a new tab) van proposar recentment una aproximació de prompt multimodal en cadena de pensament (CoT). El CoT tradicional es centra en la modalitat del llenguatge. En contrast, el CoT multimodal incorpora text i visió en un marc de treball de dos etapes. El primer pas implica la generació de raonaments basats en informació multimodal. Això és seguit per la segona fase, inferència de respostes, que aprofita els raonaments informatius generats.

El model multimodal CoT (1B) supera el GPT-3.5 en el banc de proves ScienceQA.

MCOT

Font de la imatge: Zhang et al. (2023) (opens in a new tab)

Lectura addicional: