Multimodal CoT Prompting

Zhang и др. (2023) (opens in a new tab) недавно предложили подход мультимодальной формулировки цепочки мыслей (Multimodal CoT). Традиционная цепочка мыслей сосредоточена на языковой модальности. В отличие от этого, мультимодальная цепочка мыслей объединяет текст и визуальную информацию в двухэтапной структуре. Первый шаг включает генерацию обоснований на основе мультимодальной информации. Затем следует второй этап – вывод ответа, в котором используются информативные созданные обоснования.

Модель мультимодальной цепочки мыслей (1B) превосходит GPT-3.5 на бенчмарке ScienceQA.

Источник изображения: Zhang и др. (2023) (opens in a new tab)

Дополнительная литература:

Language Is Not All You Need: Aligning Perception with Language Models (opens in a new tab) (Feb 2023)

Reflexion Graph Prompting