Multimodal CoT

Monimuotoinen CoT-kehottaminen

Perinteisen ajatusketjun sijaan, joka keskittyy kieli-ilmaisuun,Zhang ym. (2023) (opens in a new tab) esittivät äskettäin monimuotoinen ajatusketjukehotteen lähestymistavan. Tämä yhdistää tekstin ja näköhavainnon kaksivaiheiseen kehykseen. Ensimmäinen vaihe sisältää järjellisten perustelujen tuottamisen monimuotoisen tiedon perusteella, minkä jälkeen seuraa toinen vaihe – vastauksen päätteleminen, jossa hyödynnetään tuotettuja informatiivisia perusteluja.

Monimuotoinen CoT-malli (1B) on osoittautunut tehokkaammaksi kuin GPT-3.5, erityisesti ScienceQA-vertailussa, jossa se suoriutui paremmin.

MCOT

Kuvan lähde: Zhang ym. (2023) (opens in a new tab)

Lisää luettavaa: