Prompting Multimodal CoT

Zhang et al. (2023) (opens in a new tab) van proposar recentment una aproximació de prompt multimodal en cadena de pensament (CoT). El CoT tradicional es centra en la modalitat del llenguatge. En contrast, el CoT multimodal incorpora text i visió en un marc de treball de dos etapes. El primer pas implica la generació de raonaments basats en informació multimodal. Això és seguit per la segona fase, inferència de respostes, que aprofita els raonaments informatius generats.

El model multimodal CoT (1B) supera el GPT-3.5 en el banc de proves ScienceQA.

Font de la imatge: Zhang et al. (2023) (opens in a new tab)

Lectura addicional:

El llenguatge no és tot el que necessites: alinear la percepció amb els models de llenguatge (opens in a new tab) (febrer de 2023)

Reflexion Prompt de graf