بسیاری از روش محبوب زنجیره افکار (CoT) برای تحریک هوش مصنوعی مولد به منظور دستیابی به پاسخهای بهتر و پیچیدهتر آگاه هستند. محققان از Google DeepMind و دانشگاه پرینستون یک استراتژی تحریک بهبود یافته به نام Tree of Thoughts (ToT) توسعه دادند که اعلان را به سطح بالاتری از نتایج، باز کردن روشهای استدلال پیچیدهتر و خروجیهای بهتر میبرد.
محققان توضیح می دهند:
ما نشان میدهیم که چگونه جستجوی عمدی در درختان افکار (ToT) نتایج بهتری ایجاد میکند و مهمتر از آن، راههای جدید جالب و امیدوارکننده برای استفاده از مدلهای زبان برای حل مشکلاتی که نیاز به جستجو یا برنامهریزی دارند، ایجاد میکند.»
محققان در برابر سه نوع تحریک مقایسه می کنند
مقاله تحقیقاتی ToT را با سه استراتژی دیگر محرک مقایسه می کند.
1. درخواست ورودی-خروجی (IO).
این اساساً به مدل زبان مشکلی برای حل و دریافت پاسخ می دهد.
یک مثال بر اساس خلاصه سازی متن به شرح زیر است:
Input Prompt: مقاله زیر را خلاصه کنید.
Output Prompt: خلاصه بر اساس مقاله ای که ورودی بود
2. زنجیره ای از افکار تحریک
این شکل از تحریک، جایی است که یک مدل زبان برای ایجاد پاسخهای منسجم و مرتبط با تشویق آن به دنبال کردن یک توالی منطقی از افکار هدایت میشود. پیشنهاد زنجیرهای از فکر (CoT) راهی برای هدایت یک مدل زبان از طریق مراحل استدلال میانی برای حل مشکلات است.
مثال تحریک زنجیره فکر:
سوال: راجر 5 توپ تنیس دارد. او 2 قوطی توپ تنیس دیگر می خرد. هر قوطی 3 توپ تنیس دارد. الان چند تا توپ تنیس داره؟
دلیل: راجر با 5 توپ شروع کرد. 2 قوطی از 3 توپ تنیس هر کدام 6 توپ تنیس است. 5 + 6 = 11. جواب: 11سوال: کافه تریا 23 سیب داشت. اگر از 20 عدد برای ناهار استفاده کردند و 6 عدد دیگر خریدند، چند عدد سیب دارند؟
3. خود سازگاری با CoT
به عبارت ساده، این یک استراتژی تحریک کننده است که مدل زبان را چندین بار مطرح می کند و سپس متداول ترین پاسخ را انتخاب می کند.
مقاله تحقیقاتی در مورد خود سازگاری با CoT از مارس 2023 آن را توضیح می دهد:
«ابتدا از مجموعه متنوعی از مسیرهای استدلال نمونه برداری می کند، به جای اینکه فقط راه حریص را انتخاب کند، و سپس با به حاشیه راندن مسیرهای استدلال نمونه، سازگارترین پاسخ را انتخاب می کند. سازگاری با خود این شهود را تحت تأثیر قرار می دهد که یک مسئله استدلال پیچیده معمولاً چندین روش مختلف تفکر را می پذیرد که منجر به پاسخ صحیح منحصر به فرد آن می شود.
مدلهای فرآیند دوگانه در شناخت انسان
محققان از نظریهای الهام گرفتهاند که چگونه تفکر تصمیمگیری انسانی به نام مدلهای فرآیند دوگانه در شناخت انسان یا نظریه فرآیند دوگانه نامیده میشود.
مدلهای فرآیند دوگانه در شناخت انسان پیشنهاد میکنند که انسانها در دو نوع فرآیند تصمیمگیری شرکت میکنند، یکی که شهودی و سریع است و دیگری که مشورتیتر و کندتر است.
- سریع، خودکار، ناخودآگاه
این حالت شامل تفکر سریع، خودکار و ناخودآگاه است که اغلب گفته می شود مبتنی بر شهود است. - آهسته، عمدی، آگاهانه
این شیوه تصمیم گیری یک فرآیند تفکر آهسته، عمدی و آگاهانه است که شامل بررسی دقیق، تجزیه و تحلیل و استدلال گام به گام قبل از تصمیم گیری نهایی است.
چارچوب تشویقی Tree of Thoughts (ToT) از ساختار درختی هر مرحله از فرآیند استدلال استفاده میکند که به مدل زبان اجازه میدهد تا هر مرحله استدلال را ارزیابی کند و تصمیم بگیرد که آیا آن مرحله در استدلال قابل اجرا است یا خیر و منجر به پاسخ میشود. اگر مدل زبان تصمیم بگیرد که مسیر استدلال به پاسخ منتهی نمیشود، استراتژی محرک از آن میخواهد که آن مسیر (یا شاخه) را رها کند و تا زمانی که به نتیجه نهایی برسد، با یک شاخه دیگر به حرکت خود ادامه دهد.
درخت افکار (ToT) در مقابل زنجیره افکار (CoT)
تفاوت بین ToT و CoT در این است که ToT یک چارچوب درخت و شاخه برای فرآیند استدلال دارد در حالی که CoT مسیر خطی تری را طی می کند.
به زبان ساده، CoT به مدل زبان میگوید که برای انجام یک کار، یک سری مراحل را دنبال کند، که شبیه مدل شناختی سیستم 1 است که سریع و خودکار است.
ToT شبیه مدل شناختی سیستم 2 است که بیشتر مشورتی است و به مدل زبان می گوید که یک سری مراحل را دنبال کند، اما همچنین باید یک ارزیاب وارد شود و هر مرحله را مرور کند و اگر گام خوبی برای ادامه دادن است و اگر نه متوقف شود و دنبال کند. مسیر دیگری
تصاویری از راهبردهای انگیزشی
مقاله تحقیقاتی تصاویر شماتیکی از هر استراتژی محرک را با کادرهای مستطیلی که نشان دهنده یک “فکر” در هر مرحله به سمت تکمیل کار، حل یک مشکل است، منتشر کرد.
تصویر زیر اسکرین شات از فرآیند استدلال ToT است:
تصویر زنجیره ای از انگیزه
این تصویر شماتیک برای CoT است که نشان میدهد چگونه فرآیند فکر بیشتر یک مسیر مستقیم (خطی) است:
مقاله پژوهشی توضیح می دهد:
“تحقیق در مورد حل مسئله انسانی نشان می دهد که افراد در یک فضای مشکل ترکیبی جستجو می کنند – درختی که در آن گره ها راه حل های جزئی را نشان می دهند و شاخه ها با عملگرها مطابقت دارند.
که آنها را اصلاح می کند. اینکه کدام شاخه باید انتخاب شود توسط اکتشافی تعیین می شود که به هدایت فضای مسئله کمک می کند و مشکل گشا را به سمت راه حل هدایت می کند.این دیدگاه دو کاستی کلیدی رویکردهای موجود را که از LM برای حل مشکلات کلی استفاده میکنند، برجسته میکند:
1) به صورت محلی، آنها ادامه های مختلف را در یک فرآیند فکری کشف نمی کنند – شاخه های درخت.
2) در سطح جهانی، آنها از هیچ نوع برنامه ریزی، آینده نگری یا عقبگردی برای کمک به ارزیابی این گزینه های مختلف استفاده نمی کنند – نوعی جستجوی اکتشافی هدایت شده که به نظر می رسد مشخصه حل مسئله انسان باشد.
برای رفع این کاستیها، ما Tree of Thoughts (ToT) را معرفی میکنیم، الگویی که به LMها اجازه میدهد چندین مسیر استدلال را بر روی افکار کشف کنند…”
تست شده با یک بازی ریاضی
محققان این روش را با استفاده از یک بازی ریاضی 24 آزمایش کردند. بازی 24 یک بازی با ورق ریاضی است که در آن بازیکنان از چهار عدد (که فقط یک بار می توان استفاده کرد) را از مجموعه ای از کارت ها استفاده می کنند تا آنها را با استفاده از حساب پایه (جمع، تفریق، ضرب و تقسیم) ترکیب کنند تا به نتیجه 24 برسند.
نتایج و نتیجه گیری
محققان استراتژی تحریک ToT را در برابر سه رویکرد دیگر آزمایش کردند و دریافتند که نتایج دائماً بهتری ایجاد می کند.
با این حال، آنها همچنین خاطرنشان می کنند که ToT ممکن است برای تکمیل وظایفی که GPT-4 در حال حاضر به خوبی انجام می دهد، ضروری نباشد.
نتیجه می گیرند:
“سیستم 1” از LM ها را می توان به طور سودمندی توسط “سیستم 2” بر اساس جستجوی درختی از مسیرهای ممکن برای حل یک مشکل تقویت کرد.
چارچوب Tree of Thoughts راهی برای ترجمه بینش های کلاسیک در مورد حل مسئله به روش های عملی برای LM های معاصر ارائه می دهد.
در عین حال، LM ها ضعف این روش های کلاسیک را برطرف می کنند و راهی برای حل مشکلات پیچیده ای که به راحتی رسمیت نمی یابند، مانند خلاقیت ارائه می دهند.
نوشتنما این تلاقی LMها با رویکردهای کلاسیک به هوش مصنوعی را به عنوان یک جهت هیجان انگیز می بینیم.”
مقاله پژوهشی اصلی را بخوانید:
درخت افکار: حل عمدی مسئله با مدل های زبانی بزرگ