Automatic Reasoning and Tool-use (ART)
μκ°μ μ¬μ¬(chain-of-thought; CoT) ν둬νν κ³Ό λꡬλ₯Ό κ΅μ°¨μ μΌλ‘ κ²°ν©νλ κ²μ λκ·λͺ¨μΈμ΄λͺ¨λΈλ‘ λ§μ μμ μ μ²λ¦¬νλ κ°λ ₯νκ³ κ²¬κ³ ν μ κ·Ό λ°©μμΈ κ²μΌλ‘ λ°νμ‘μ΅λλ€. μ΄λ¬ν μ κ·Όλ²λ€μ μΌλ°μ μΌλ‘ μμ νΉμ μμ°μ μμμ μΌλ‘ μ μνκ³ , μ£Όμ κΉκ² κ΅μ°¨νμ¬ λͺ¨λΈμ μμ±νκ³ λꡬλ₯Ό μ¬μ©ν΄μΌ ν©λλ€. Paranjape et al., (2023) (opens in a new tab)μ νλ‘κ·Έλ¨μΌλ‘ μ€κ° μΆλ‘ λ¨κ³λ₯Ό μλ μμ±νκΈ° μν΄ frozen λκ·λͺ¨μΈμ΄λͺ¨λΈμ μ¬μ©νλ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€.
ARTλ λ€μκ³Ό κ°μ΄ μλν©λλ€:
- μλ‘μ΄ μμ μ΄ μ£Όμ΄μ§λ©΄ μμ λΌμ΄λΈλ¬λ¦¬μμ λ€λ¨κ³μ μΆλ‘ λ° λꡬ μ¬μ© μμ°μ μ νν©λλ€.
- ν μ€νΈ μμλ μΈλΆ λκ΅¬κ° νΈμΆλ λλ§λ€ μμ±μ μΌμ μ€λ¨νκ³ , μμ±μ μ¬κ°νκΈ° μ μ κ·Έ μΆλ ₯λ€μ ν΅ν©ν©λλ€.
ARTλ λͺ¨λΈμ΄ μμ°λ€λ‘λΆν° μΌλ°ννμ¬ μλ‘μ΄ μμ μ λΆν΄νκ³ μ μ ν μ₯μμμ λꡬλ₯Ό μ¬μ©νλλ‘ μ₯λ €νλλ°, μ΄λ μ λ‘μ·(zero-shot) λ°©μμΌλ‘ μ΄λ£¨μ΄μ§λλ€. λν ARTλ μ¬λλ€λ‘ νμ¬κΈ μΆλ‘ λ¨κ³μμ μ€λ₯λ₯Ό μμ νκ±°λ λ¨μν μμ λ° λꡬ λΌμ΄λΈλ¬λ¦¬λ₯Ό μ λ°μ΄νΈνμ¬ μλ‘μ΄ λꡬλ₯Ό μΆκ°ν μ μκ² ν¨μΌλ‘μ¨ νμ₯ κ°λ₯ν©λλ€. κ³Όμ μ λ€μκ³Ό κ°μ΅λλ€:

μ΄λ―Έμ§ μΆμ²: Paranjape et al., (2023) (opens in a new tab)
ARTλ BigBenchμ MMLU λ²€μΉλ§ν¬μμ 보μ΄μ§ μλ μμ μ λν΄ ν¨μ·(few-shot) ν둬νν κ³Ό μλ CoTλ₯Ό ν¬κ² ν₯μμν€λ©°, μ¬λμ νΌλλ°±μ λ°μν κ²½μ° μμμ μΌλ‘ λ§λ CoT ν둬ννΈμ μ±λ₯μ λ₯κ°ν©λλ€.
μλλ BigBenchμ MMLU μμ μμ ARTμ μ±λ₯μ λ³΄μ¬ μ£Όλ νμ λλ€:

μ΄λ―Έμ§ μΆμ²: Paranjape et al., (2023) (opens in a new tab)