๐Ÿš€ Master Prompt Engineering and building AI Agents in our NEW courses! Use PROMPTING20 for 20% off โžœ Enroll now
Reflexion

Reflexion

Reflexion์€ ์–ธ์–ด ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ์–ธ์–ด ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ๊ฐ•ํ™”ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. Shinn et al. (2023) (opens in a new tab)์— ๋”ฐ๋ฅด๋ฉด, "Reflexion์€ LLM ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์„ ํƒ๊ณผ ์Œ์„ ์ด๋ฃจ๋Š” ์—์ด์ „ํŠธ์˜ ๋ฉ”๋ชจ๋ฆฌ ์ธ์ฝ”๋”ฉ์œผ๋กœ ์ •์ฑ…์„ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”ํ•˜์—ฌ ์ด๋ฃจ์–ด ๋‚ธ '์–ธ์–ด์ ' ๊ฐ•ํ™” ํŒจ๋Ÿฌ๋‹ค์ž„์ž…๋‹ˆ๋‹ค."

๊ณ ์ฐจ์›์ ์œผ๋กœ, Reflexion์€ ํ™˜๊ฒฝ ํ”ผ๋“œ๋ฐฑ(free-form language ๋˜๋Š” scalar)์„ ์ž๊ธฐ ์„ฑ์ฐฐ์ด๋ผ๊ณ ๋„ ํ•˜๋Š” ์–ธ์–ด ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์Œ ์—ํ”ผ์†Œ๋“œ์—์„œ LLM ์—์ด์ „ํŠธ์˜ ์ปจํ…์ŠคํŠธ๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ํ†ตํ•ด ์—์ด์ „ํŠธ๋Š” ์ด์ „์˜ ์‹ค์ˆ˜๋กœ๋ถ€ํ„ฐ ๋น ๋ฅด๊ณ  ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ๋‹ค์–‘ํ•˜๊ณ  ์–ด๋ ค์šด ์ž‘์—…์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

"Reflexion ํ”„๋ ˆ์ž„์›Œํฌ"

์œ„ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ Reflection์€ ์„ธ ๊ฐ€์ง€ ๋ชจ๋ธ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค:

  • An Actor: ์ƒํƒœ ๊ด€์ฐฐ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ…์ŠคํŠธ์™€ ์•ก์…˜์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Actor๋Š” ํŠน์ • ํ™˜๊ฒฝ์—์„œ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๊ถค์ ์„ ๋‚จ๊ธฐ๋Š” ๊ด€์ฐฐ์˜ ๋Œ€์ƒ์ž…๋‹ˆ๋‹ค. ์ƒ๊ฐ์˜ ์‚ฌ์Šฌ (Chain-of-Thought) (opens in a new tab)๊ณผ ReAct (opens in a new tab)๋Š” Actor ๋ชจ๋ธ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์—์ด์ „ํŠธ์— ์ถ”๊ฐ€ ์ปจํ…์ŠคํŠธ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ”๋ชจ๋ฆฌ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค.
  • An Evaluator: Actor๊ฐ€ ์‚ฐ์ถœํ•œ ์ ์ˆ˜์ž…๋‹ˆ๋‹ค. ๋ช…ํ™•ํ•˜๊ฒŒ ๋งํ•˜์ž๋ฉด, ๋‹จ๊ธฐ ๊ธฐ์–ต์ด๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋Š” ์ƒ์„ฑ ๊ถค์ ์„ ์ธํ’‹์œผ๋กœ ์ž…๋ ฅ ๋ฐ›์œผ๋ฉด ๋ณด์ƒ ์ ์ˆ˜(reward score)๋ฅผ ์•„์›ƒํ’‹์œผ๋กœ ์‚ฐ์ถœํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ž‘์—…์— ๋”ฐ๋ผ ์ƒ์ดํ•œ ๋ณด์ƒ ๊ธฐ๋Šฅ์ด ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. (LLM๊ณผ ๊ทœ์น™ ๊ธฐ๋ฐ˜ ํœด๋ฆฌ์Šคํ‹ฑ์€ ์˜์‚ฌ ๊ฒฐ์ • ์ž‘์—…์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค)
  • ์ž๊ธฐ์„ฑ์ฐฐ(Self-Reflection): Actor์˜ ์ž๊ธฐ๊ณ„๋ฐœ์„ ๋•๊ธฐ ์œ„ํ•œ ์–ธ์–ด์  ๊ฐ•ํ™” ๋‹จ์„œ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ์—ญํ• ์€ LLM์— ์˜ํ•ด ๋‹ฌ์„ฑ๋˜๋ฉฐ ์ถ”ํ›„ ์‹œํ–‰(trial)์„ ์œ„ํ•œ ์ค‘์š”ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ž๊ธฐ์„ฑ์ฐฐ๋ชจ๋ธ(Self-Reflection Model)์€ ๋ณด์ƒ ์‹ ํ˜ธ, ํ˜„์žฌ ๊ถค์ ๊ณผ ์ง€์†์ ์ธ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ†ตํ•ด ๊ด€๋ จ ํ”ผ๋“œ๋ฐฑ์„ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋Š” ์ด๋Ÿฌํ•œ ๊ฒฝํ—˜(์žฅ๊ธฐ ๊ธฐ์–ต ์ €์žฅ)์„ ํ™œ์šฉํ•˜์—ฌ ์˜์‚ฌ ๊ฒฐ์ •์„ ์‹ ์†ํ•˜๊ฒŒ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.

์š”์•ฝํ•˜์ž๋ฉด, Reflection ํ”„๋กœ์„ธ์Šค์˜ ์ฃผ์š” ๋‹จ๊ณ„๋Š” a) ์ž‘์—…์„ ์ •์˜ํ•˜๊ณ , b) ๊ถค์ ์„ ์ƒ์„ฑํ•˜๊ณ , c) ํ‰๊ฐ€ํ•˜๊ณ , d) ์„ฑ์ฐฐ(reflection)์„ ์ˆ˜ํ–‰ํ•˜๊ณ , e) ๋‹ค์Œ ๊ถค์ ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Reflection ์—์ด์ „ํŠธ๊ฐ€ ์˜์‚ฌ ๊ฒฐ์ •, ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋˜๋Š” ์ถ”๋ก ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ˜๋ณต์  ํ–‰๋™์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์šฐ๋Š” ์˜ˆ์‹œ๋ฅผ ์•„๋ž˜์˜ ๊ทธ๋ฆผ์„ ํ†ตํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Reflection์€ ์ž๊ธฐ ํ‰๊ฐ€(self-evaluation), ์ž๊ธฐ ์„ฑ์ฐฐ(self-reflection) ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ์ปดํฌ๋„ŒํŠธ๋ฅผ ๋„์ž…ํ•˜์—ฌ ReAct ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.

"Reflexion ์˜ˆ์‹œ"

๊ฒฐ๊ณผ

์‹คํ—˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด Reflexion ์—์ด์ „ํŠธ๋Š” ์˜์‚ฌ ๊ฒฐ์ • AlfWorld ์ž‘์—…, HotPotQA์˜ ์ถ”๋ก  ์งˆ๋ฌธ ๋ฐ HumanEval์˜ Python ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.

์ˆœ์ฐจ์  ์˜์‚ฌ ๊ฒฐ์ •(AlfWorld) ์ž‘์—… ํ‰๊ฐ€ ๋ถ€๋ฌธ์—์„œ, ReAct + Reflexion์€ ์ด์ง„ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด ํœด๋ฆฌ์Šคํ‹ฑ ๋ฐ GPT์˜ ์ž์ฒด ํ‰๊ฐ€ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด 134๊ฐœ ์ค‘ 130์˜ ์ž‘์—…์„ ์™„๋ฃŒํ•จ์œผ๋กœ์จ ReAct๋ฅผ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•จ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.

"Reflexion ALFWorld ๊ฒฐ๊ณผ"

Reflexion ์—ฌ๋Ÿฌ ํ•™์Šต ๋‹จ๊ณ„์— ๊ฑธ์ณ ๋ชจ๋“  ๋ฒ ์ด์Šค๋ผ์ธ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์˜ค๋กœ์ง€ ์ถ”๋ก ์˜ ๊ฒฝ์šฐ ๊ทธ๋ฆฌ๊ณ  ๊ฐ€์žฅ ์ตœ์‹  ๊ถค์ ์œผ๋กœ ๊ตฌ์„ฑ๋œ ์—ํ”ผ์†Œ๋“œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ถ”๊ฐ€ํ•  ๋•Œ Reflexion + CoT๋Š” ๊ทธ ์—ํ”ผ์†Œ๋“œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ฐ€์ง„ CoT ๊ทธ ์ž์‹ ๊ณผ CoT๋ฅผ ๊ฐ๊ฐ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

"Reflexion ALFWorld ๊ฒฐ๊ณผ"

์•„๋ž˜ ํ‘œ์— ์š”์•ฝ๋œ ๋ฐ”์™€ ๊ฐ™์ด Reflexion์€ MBPP, HumanEval ๋ฐ Leetcode Hard์—์„œ Python ๋ฐ Rust ์ฝ”๋“œ ์ž‘์„ฑ์— ๋Œ€ํ•œ ์ด์ „์˜ ์ตœ์ฒจ๋‹จ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์†์‰ฝ๊ฒŒ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

"Reflexion ALFWorld \b๊ฒฐ๊ณผ"

์–ธ์ œ Reflexion์„ ์จ์•ผํ• ๊นŒ์š”?

Reflexion์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ญ๋ชฉ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค:

  1. ์—์ด์ „ํŠธ๋Š” ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ฐฐ์›๋‹ˆ๋‹ค: Reflection์€ ์—์ด์ „ํŠธ๊ฐ€ ๊ณผ๊ฑฐ์˜ ์‹ค์ˆ˜๋ฅผ ๋ฐ˜์„ฑํ•˜๊ณ  ๊ทธ ์ง€์‹์„ ๋ฏธ๋ž˜์˜ ๊ฒฐ์ •์— ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์˜์‚ฌ ๊ฒฐ์ •, ์ถ”๋ก  ๋ฐ ํ”„๋กœ๊ทธ๋ž˜๋ฐ๊ณผ ๊ฐ™์ด ์—์ด์ „ํŠธ๊ฐ€ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ์ž‘์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  2. ์ „ํ†ต์ ์ธ ๊ฐ•ํ™” ํ•™์Šต ๋ฐฉ๋ฒ•์€ ๋น„ํ˜„์‹ค์ ์ž…๋‹ˆ๋‹ค: ์ „ํ†ต์ ์ธ ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning)๋ฐฉ์‹์€ ๊ด‘๋ฒ”์œ„ํ•œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์™€ ๊ฐ’๋น„์‹ผ ๋ชจ๋ธ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. Reflection์€ ๊ธฐ๋ณธ ์–ธ์–ด ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)ํ•  ํ•„์š”๊ฐ€ ์—†๋Š” ์†์‰ฌ์šด ๋Œ€์•ˆ์„ ์ œ๊ณตํ•˜๋ฏ€๋กœ ๋ฐ์ดํ„ฐ ๋ฐ ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค ์ธก๋ฉด์—์„œ ๋” ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.
  3. ์–ด๊ฐ์— ๋”ฐ๋ฅธ ํ”ผ๋“œ๋ฐฑ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค: Reflexion์€ ์–ธ์–ด ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•˜๋ฉฐ, ์ด๋Š” ๊ธฐ์กด ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning)์—์„œ ์‚ฌ์šฉ๋˜๋Š” scalar ๋ณด์ƒ๋ณด๋‹ค ๋” ๋ฏธ๋ฌ˜ํ•˜๊ณ  ๊ตฌ์ฒด์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—์ด์ „ํŠธ๋Š” ์‹ค์ˆ˜๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ  ์ถ”ํ›„ ์‹œํ—˜์—์„œ ๊ฐœ์„ ๋œ ๋ชฉํ‘œ์— ํ•œ ๋ฐœ์ง ๋” ๋‹ค๊ฐ€์„ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ(Interpretability)๊ณผ ๋ช…์‹œ์  ๊ธฐ์–ต์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค: Reflexion์€ ๊ธฐ์กด ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning) ๋ฐฉ๋ฒ•์— ๋น„ํ•ด ๋” ํ•ด์„ ๊ฐ€๋Šฅํ•˜๊ณ  ๋ช…์‹œ์ ์ธ ํ˜•ํƒœ์˜ ์—ํ”ผ์†Œ๋“œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ์˜ ์ž๊ธฐ ์„ฑ์ฐฐ(self-reflection)์€ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅ๋˜์–ด ํ•™์Šต ๊ณผ์ •์„ ๋” ์‰ฝ๊ฒŒ ๋ถ„์„ํ•˜๊ณ  ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Reflexion์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ญ๋ชฉ์— ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค:

  • ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •: Reflexion ์—์ด์ „ํŠธ๋Š” ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•˜๊ณ  ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๊ฒƒ์„ ํฌํ•จํ•˜๋Š” AlfWorld ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
  • Reasoning: Reflexion์€ ์—ฌ๋Ÿฌ ๋ฌธ์„œ์— ๋Œ€ํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ ์„ธํŠธ์ธ HotPotQA์—์„œ ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  • ํ”„๋กœ๊ทธ๋ž˜๋ฐ: Reflexion ์—์ด์ „ํŠธ๋Š” HumanEval ๋ฐ MBPP์™€ ๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ์— ๋” ๋‚˜์€ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜์—ฌ ๊ฒฝ์šฐ์— ๋”ฐ๋ผ ์ตœ์ฒจ๋‹จ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

Reflection์˜ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ์ž๊ธฐํ‰๊ฐ€(self-evaluation) ์—ญ๋Ÿ‰ ์˜์กด: Reflection์€ ์—์ด์ „ํŠธ๊ฐ€ ์ž์‹ ์˜ ์„ฑ๊ณผ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜๊ณ  ์œ ์šฉํ•œ ์ž๊ธฐ๋ฐ˜์„ฑ(self-reflection)์„ ์ƒ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๋ณต์žกํ•œ ์ž‘์—…์˜ ๊ฒฝ์šฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ชจ๋ธ์˜ ๊ธฐ๋Šฅ์ด ๊ณ„์† ํ–ฅ์ƒ๋จ์— ๋”ฐ๋ผ Reflexion์ด ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ๊ฐœ์„ ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.
  • ์žฅ๊ธฐ๊ธฐ์–ต์ œ์•ฝ: Reflexion์€ ์ตœ๋Œ€ ์šฉ๋Ÿ‰์˜ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ ๋ฒกํ„ฐ ์ž„๋ฒ ๋”ฉ์ด๋‚˜ SQL ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์™€ ๊ฐ™์€ ์ƒ๋Œ€์ ์œผ๋กœ ๋” ๋ณต์žกํ•œ ์ž‘์—…์˜ ๊ฒฝ์šฐ ๊ณ ๊ธ‰ ๊ตฌ์กฐ(advanced structures)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์œ ๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ฝ”๋“œ ์ƒ์„ฑ ์ œํ•œ: ์ •ํ™•ํ•œ ์ž…์ถœ๋ ฅ ๋งคํ•‘(์˜ˆ: ํ•˜๋“œ์›จ์–ด์˜ ์˜ํ–ฅ์„ ๋ฐ›๋Š” ๋น„๊ฒฐ์ •๋ก ์  ์ƒ์„ฑ๊ธฐ ํ•จ์ˆ˜ ๋ฐ ํ•จ์ˆ˜ ์ถœ๋ ฅ)์„ ์ง€์ •ํ•˜๋Š” ๋ฐ ํ…Œ์ŠคํŠธ ์ฃผ๋„ ๊ฐœ๋ฐœ(test-driven development)์— ์ œํ•œ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Figures ์ถœ์ฒ˜: Reflexion: Language Agents with Verbal Reinforcement Learning (opens in a new tab)

์ฐธ๊ณ ๋ฌธํ—Œ