Multimodal CoT Prompting
Zhang et al. (2023) (opens in a new tab)μ μ΅κ·Ό λ©ν°λͺ¨λ¬ μκ°μ μ¬μ¬ ν둬νν (multimodal chain-of-thought prompting) μ κ·Ό λ°©μμ μ μνμ΅λλ€. κΈ°μ‘΄μ CoTλ μΈμ΄ μμ(language modality)μ μ€μ μ λ‘λλ€. λ°λ©΄, λ©ν°λͺ¨λ¬ CoTλ ν μ€νΈμ μ΄λ―Έμ§λ₯Ό 2λ¨κ³ νλ μμν¬μ ν΅ν©ν©λλ€. 첫 λ²μ§Έ λ¨κ³μμλ λ©ν°λͺ¨λ¬ μ 보λ₯Ό κΈ°λ°μΌλ‘ κ·Όκ±° μμ±(rationale generation)μ ν¬ν¨ν©λλ€. κ·Έ λ€μμλ λ λ²μ§Έ λ¨κ³μΈ λ΅λ³ μΆλ‘ μ΄ μ΄μ΄μ§λ©°, μ΄ λ¨κ³μμλ μμ±λ μ 보μ κ·Όκ±°λ€(informative generated rationales)μ νμ©νμ¬ λ΅λ³μ λμΆν©λλ€.
λ©ν°λͺ¨λ¬ CoT λͺ¨λΈ(1B)μ ScienceQA λ²€μΉλ§ν¬μμ GPT-3.5λ³΄λ€ μ±λ₯μ΄ λ°μ΄λ¬μ΅λλ€.

Image Source: Zhang et al. (2023) (opens in a new tab)
λ μ½μ΄λ³Ό κ²: