πŸš€ Master Prompt Engineering and building AI Agents in our NEW courses! Use PROMPTING20 for 20% off ➜ Enroll now
Multimodal CoT

Multimodal CoT Prompting

Zhang et al. (2023) (opens in a new tab)은 졜근 λ©€ν‹°λͺ¨λ‹¬ μƒκ°μ˜ μ‚¬μŠ¬ ν”„λ‘¬ν”„νŒ…(multimodal chain-of-thought prompting) μ ‘κ·Ό 방식을 μ œμ•ˆν–ˆμŠ΅λ‹ˆλ‹€. 기쑴의 CoTλŠ” μ–Έμ–΄ 양식(language modality)에 쀑점을 λ‘‘λ‹ˆλ‹€. 반면, λ©€ν‹°λͺ¨λ‹¬ CoTλŠ” ν…μŠ€νŠΈμ™€ 이미지λ₯Ό 2단계 ν”„λ ˆμž„μ›Œν¬μ— ν†΅ν•©ν•©λ‹ˆλ‹€. 첫 번째 λ‹¨κ³„μ—μ„œλŠ” λ©€ν‹°λͺ¨λ‹¬ 정보λ₯Ό 기반으둜 κ·Όκ±° 생성(rationale generation)을 ν¬ν•¨ν•©λ‹ˆλ‹€. κ·Έ λ‹€μŒμ—λŠ” 두 번째 단계인 λ‹΅λ³€ 좔둠이 이어지며, 이 λ‹¨κ³„μ—μ„œλŠ” μƒμ„±λœ 정보적 κ·Όκ±°λ“€(informative generated rationales)을 ν™œμš©ν•˜μ—¬ 닡변을 λ„μΆœν•©λ‹ˆλ‹€.

λ©€ν‹°λͺ¨λ‹¬ CoT λͺ¨λΈ(1B)은 ScienceQA λ²€μΉ˜λ§ˆν¬μ—μ„œ GPT-3.5보닀 μ„±λŠ₯이 λ›°μ–΄λ‚¬μŠ΅λ‹ˆλ‹€.

MCOT

Image Source: Zhang et al. (2023) (opens in a new tab)

더 읽어볼 것: