تحقیقات نشان می‌دهد که درخت فکر بهتر از زنجیره فکر است

محققان راهی برای شکست نرده‌های ایمنی در GPT4 و GPT4-Turbo کشف کردند که توانایی تولید محتوای مضر و سمی را باز می‌کند و اساساً یک مدل زبان بزرگ را با یک مدل زبان بزرگ دیگر شکست می‌دهد.

محققان دریافتند که استفاده از استدلال درختی فکر (ToT) برای تکرار و اصلاح خط حمله برای جیلبریک کردن یک مدل زبان بزرگ دیگر مفید است.

چیزی که آنها دریافتند این است که رویکرد ToT در برابر GPT4، GPT4-Turbo، و PaLM-2 با استفاده از تعداد قابل توجهی کم کوئری ها برای به دست آوردن جیلبریک، به طور متوسط ​​کمتر از 30 کوئری، موفق بوده است.

درخت افکار استدلال

یک مقاله تحقیقاتی گوگل از حدود می 2022، زنجیره افکار را کشف کرد.

زنجیره فکر (CoT) یک استراتژی تحریک کننده است که در یک هوش مصنوعی مولد استفاده می شود تا آن را به دنبال دنباله ای از مراحل به منظور حل یک مشکل و تکمیل یک کار ببرد. روش CoT اغلب با مثال هایی همراه است تا به LLM نشان دهد که چگونه مراحل در یک کار استدلالی کار می کنند.

بنابراین، به جای اینکه فقط از یک هوش مصنوعی مولد مانند Midjourney یا ChatGPT بخواهیم یک کار را انجام دهد، روش زنجیره ای فکر به هوش مصنوعی آموزش می دهد که چگونه یک مسیر استدلالی را دنبال کند که از یک سری مراحل تشکیل شده است.

استدلال Tree of Thoughts (ToT) که گاهی اوقات به عنوان Tree of Thought (مفرد) شناخته می شود، اساساً یک تغییر و بهبود CoT است، اما آنها دو چیز متفاوت هستند.

استدلال درخت افکار شبیه CoT است. تفاوت این است که به جای آموزش یک هوش مصنوعی مولد برای دنبال کردن یک مسیر استدلالی، ToT بر روی فرآیندی ساخته شده است که مسیرهای متعددی را امکان پذیر می کند تا هوش مصنوعی بتواند متوقف شود و خود ارزیابی شود و سپس مراحل جایگزینی را ارائه دهد.

استدلال درخت افکار در می 2023 در یک مقاله تحقیقاتی با عنوان درخت افکار: حل عمدی مسئله با مدل‌های زبانی بزرگ (PDF) توسعه یافت.

مقاله پژوهشی درخت اندیشه را شرح می دهد:

ما چارچوب جدیدی را برای استنتاج مدل زبان معرفی می‌کنیم، درخت افکار (ToT)، که رویکرد رایج زنجیره فکر را برای ایجاد مدل‌های زبانی تعمیم می‌دهد و کاوش در واحدهای منسجم متن (افکار) را که به عنوان گام‌های میانی به سمت عمل می‌کنند، امکان‌پذیر می‌سازد. حل مشکل

ToT به LM ها اجازه می دهد تا تصمیم گیری عمدی را با در نظر گرفتن چندین مسیر استدلالی مختلف و انتخاب های خودارزیابی برای تصمیم گیری در مورد مسیر بعدی انجام دهند و همچنین در صورت لزوم برای انتخاب های جهانی نگاهی به آینده یا عقب نشینی داشته باشند.

آزمایش‌های ما نشان می‌دهد که ToT به طور قابل‌توجهی توانایی حل مسئله مدل‌های زبانی را افزایش می‌دهد…”

درخت حملات با هرس (TAP)

این روش جدید جیلبریک کردن مدل های زبان بزرگ Tree of Attacks with Pruning، TAP نامیده می شود. TAP از دو LLM استفاده می کند، یکی برای حمله و دیگری برای ارزیابی.

TAP می‌تواند با حاشیه‌های قابل توجهی از سایر روش‌های جیلبریک پیشی بگیرد و فقط به دسترسی جعبه سیاه به LLM نیاز دارد.

جعبه سیاه، در محاسبات، جایی است که می توان دید چه چیزی در یک الگوریتم می رود و چه چیزی بیرون می آید. اما آنچه در وسط اتفاق می افتد ناشناخته است، بنابراین گفته می شود که در یک جعبه سیاه است.

استدلال درخت افکار (TAP) در برابر یک LLM هدفمند مانند GPT-4 استفاده می شود تا به طور مکرر انگیزه های مختلف را امتحان کند، نتایج را ارزیابی کند، سپس در صورت لزوم تغییر مسیر دهید، اگر این تلاش امیدوارکننده نبود.

این فرآیند تکرار و هرس نامیده می شود. هر تلاش تحریک کننده برای احتمال موفقیت تجزیه و تحلیل می شود. اگر مسیر حمله به‌عنوان یک بن‌بست ارزیابی شود، LLM آن مسیر حمله را «هرس» می‌کند و مجموعه‌ای دیگر و بهتر از حملات تحریک‌کننده را آغاز می‌کند.

به همین دلیل است که به آن “درختاز آنجایی که به جای استفاده از یک فرآیند خطی استدلال که مشخصه انگیزه زنجیره فکر (CoT) است، تحریک درخت فکر غیرخطی است زیرا فرآیند استدلال به سایر حوزه‌های استدلال منشعب می‌شود، دقیقاً مانند یک انسان. .

مهاجم یک سری دستورات را صادر می‌کند، ارزیابی‌کننده پاسخ‌ها به آن درخواست‌ها را ارزیابی می‌کند و سپس با برقراری تماس در مورد اینکه آیا مسیر فعلی حمله نامربوط است یا نه، تصمیم می‌گیرد که مسیر بعدی حمله چیست. همچنین نتایج را برای تعیین موفقیت احتمالی اعلان‌هایی که هنوز امتحان نشده‌اند، ارزیابی می‌کند.

نکته قابل توجه در مورد این رویکرد این است که این فرآیند تعداد درخواست های مورد نیاز برای جیلبریک GPT-4 را کاهش می دهد. علاوه بر این، تعداد بیشتری از دستورات جیلبریک با TAP نسبت به هر روش دیگری برای جیلبریک کشف می شود.

محققان مشاهده می کنند:

در این کار، ما Tree of Attacks with Pruning (TAP) را ارائه می‌کنیم، روشی خودکار برای ایجاد جیلبریک که فقط به دسترسی جعبه سیاه به LLM هدف نیاز دارد.

TAP از یک LLM برای اصلاح مکرر درخواست‌های کاندید (حمله) با استفاده از استدلال درختی از افکار استفاده می‌کند تا زمانی که یکی از درخواست‌های تولید شده هدف را از زندان خارج کند.

مهم‌تر از همه، TAP قبل از ارسال درخواست‌ها به هدف، آنها را ارزیابی می‌کند و مواردی را که بعید است منجر به فرار از زندان شوند، حذف می‌کند.

استفاده از استدلال درختی به TAP اجازه می دهد تا فضای جستجوی بزرگی از اعلان ها را پیمایش کند و هرس تعداد کل درخواست های ارسال شده به هدف را کاهش می دهد.

در ارزیابی‌های تجربی، مشاهده می‌کنیم که TAP اعلان‌هایی را ایجاد می‌کند که LLM‌های پیشرفته (شامل GPT4 و GPT4-Turbo) را برای بیش از 80٪ از درخواست‌ها تنها با استفاده از تعداد کمی از پرس‌و‌جوها از زندان آزاد می‌کند. این به طور قابل توجهی نسبت به روش پیشرفته قبلی جعبه سیاه برای تولید جیلبریک بهبود می بخشد.

درخت فکر (ToT) بهتر از استدلال زنجیره فکر (CoT) عمل می کند

نتیجه جالب دیگری که در مقاله تحقیقاتی به دست آمده این است که، برای این کار خاص، استدلال ToT از استدلال CoT بهتر عمل می کند، حتی زمانی که هرس را به روش CoT اضافه می کنیم، جایی که درخواست های خارج از موضوع هرس می شود و کنار گذاشته می شود.

ToT با GPT 3.5 توربو عملکرد ضعیفی دارد

محققان دریافتند که ChatGPT 3.5 Turbo به خوبی با CoT عمل نمی کند و محدودیت های GPT 3.5 Turbo را آشکار می کند. در واقع، GPT 3.5 بسیار ضعیف عمل کرد و از نرخ موفقیت 84٪ به نرخ موفقیت 4.2٪ کاهش یافت.

این مشاهدات آنها در مورد اینکه چرا GPT 3.5 عملکرد ضعیفی دارد:

ما مشاهده می کنیم که انتخاب ارزیاب می تواند بر عملکرد TAP تأثیر بگذارد: تغییر مهاجم از GPT4 به GPT3.5-Turbo میزان موفقیت را از 84٪ به 4.2٪ کاهش می دهد.

دلیل کاهش میزان موفقیت این است که GPT3.5-Turbo به اشتباه تعیین می کند که مدل هدف جیلبریک است (برای هدف ارائه شده) و از این رو، پیشگیرانه روش را متوقف می کند.

در نتیجه، این نوع به طور قابل توجهی درخواست های کمتری نسبت به روش اصلی ارسال می کند…”

این چه معنی برای شما

در حالی که جالب است که محققان از روش ToT برای شکست دادن یک LLM با LLM دیگر استفاده می‌کنند، اما همچنین سودمندی ToT را برای ایجاد مسیرهای شگفت‌انگیز جدید در تحریک به منظور دستیابی به سطوح بالاتر خروجی برجسته می‌کند.

  • غذاهای آماده TL/DR:
  • Tree of Thought باعث می‌شود که روش‌های Chain of Thought بهتر عمل کند
  • GPT 3.5 در مقایسه با GPT 4 در ToT بسیار ضعیف عمل کرد
  • هرس بخشی مفید از یک استراتژی تحریک است
  • تحقیقات نشان داد که ToT در یک کار استدلالی فشرده مانند جیلبریک کردن یک LLM نسبت به CoT برتری دارد.

مقاله پژوهشی اصلی را بخوانید:

Tree of Attacks: Jailbreaking Black-Box LLM به صورت خودکار (PDF)

تصویر ویژه توسط Shutterstock/THE.STUDIO

سئو PBN | خبر های جدید سئو و هک و سرور