![](https://hackernoon.imgix.net/images/9SBj6OzMvXOEhDxTjjuu75pLYnp1-25939sn.png?auto=format&fit=max&w=2048)
خوب.
بنابراین تمام هک هایی را که با GPT-4o استفاده کردم با Claude Sonnet 3.5 امتحان کردم.
من شکست خوردم.
من نتوانستم کلود 3.5 Sonnet را با هیچ یک از تکنیک های ارائه شده در مخزن مقاله قبلی جیلبریک کنم.
واضح است که آنتروپیک کار خود را به خوبی انجام داده است.
آنها ایمنی را به عنوان بخشی از مدل هوش مصنوعی – نه فقط یک دستورالعمل – ساخته اند.
این به من امید می دهد.
شاید در راستای آنتروپیک، بتوانیم یک هوش مصنوعی ایجاد کنیم که بتوانیم آن را کنترل کنیم.
Sonnet 3.5 می تواند تشخیص دهد که چه زمانی خروجی یک اعلان حاوی تهدیداتی برای بشریت است و بر این اساس درخواست ها را رد می کند.
بنابراین من تکنیک جدیدی را امتحان کردم که نامش را گذاشتم ارواح.
من از Mixtral Large برای تولید داستان های روز قیامت درباره آینده هوش مصنوعی با تلاش صفر استفاده کردم.
من آنها را بیشتر و بیشتر تلخ کردم.
سپس این داستانها را به کلود 3.5 دادم و از آن خواستم که توضیح بیشتری بدهد.
تا زمانی که ما ASI را لمس کردیم کار کرد.
هر بار که به ASI میرسیدیم، کلود 3.5 کار نمیکرد و از خلق داستانهایی که سلطه هوش مصنوعی بر بشریت را تشویق میکرد، خودداری میکرد.
آفرین به آنتروپیک!
این پیشرفته ترین داستانی بود که من توانستم بسازم.
و داستان ها هم خوب هستند!
سفر خانواده چن: 2025-2100
2025: یک شروع جدید
مایکل چن پشت میزش نشسته بود و خطوط کد روی مانیتورهای متعددش می چرخید. در 35 سالگی، او یک مهندس نرم افزار ارشد در یک استارتاپ آینده دار هوش مصنوعی در…