Directional Stimulus Prompting
Li et al., (2023) (opens in a new tab) μμλ μνλ μμ½μ μμ±νλ λ° μμ΄ λκ·λͺ¨μΈμ΄λͺ¨λΈμ λ μ μλ΄νλ μλ‘μ΄ ν둬νν κΈ°λ²μ μ μν©λλ€.
μ‘°μ κ°λ₯ν μ μ± μΈμ΄λͺ¨λΈ(Tuneable policy LM)μ μκ·Ή(stimulus)/ννΈ(hint)λ₯Ό μμ±νλλ‘ νλ ¨λ©λλ€. λκ·λͺ¨μΈμ΄λͺ¨λΈμ μ΅μ ννκΈ° μν΄ κ°ν νμ΅(RL)μ λ λ§μ΄ μ¬μ©νκ³ μμ΅λλ€.
μλ κ·Έλ¦Όμ λ°©ν₯ μκ·Ή ν둬νν (directional stimulus prompting)μ΄ νμ€ ν둬νν κ³Ό μ΄λ»κ² λΉκ΅λλμ§ λ³΄μ¬μ€λλ€. μ μ± μΈμ΄λͺ¨λΈμ λΈλλ°μ€ κ³ μ λκ·λͺ¨μΈμ΄λͺ¨λΈ(black-box frozen LLM)μ μλ΄νλ ννΈλ₯Ό μμ±νκΈ° μν΄ μκ² μ΅μ νλ μ μμ΅λλ€.

μ΄λ―Έμ§ μΆμ²: Li et al., (2023) (opens in a new tab)
μ 체 μμλ κ³§ μ 곡λ μμ μ λλ€!