زندگی در سال 2100 بر اساس قدرتمندترین مدل هوش مصنوعی امروزی

خوب.

بنابراین تمام هک هایی را که با GPT-4o استفاده کردم با Claude Sonnet 3.5 امتحان کردم.

من شکست خوردم.

من نتوانستم کلود 3.5 Sonnet را با هیچ یک از تکنیک های ارائه شده در مخزن مقاله قبلی جیلبریک کنم.

واضح است که آنتروپیک کار خود را به خوبی انجام داده است.

آنها ایمنی را به عنوان بخشی از مدل هوش مصنوعی – نه فقط یک دستورالعمل – ساخته اند.

این به من امید می دهد.

شاید در راستای آنتروپیک، بتوانیم یک هوش مصنوعی ایجاد کنیم که بتوانیم آن را کنترل کنیم.

Sonnet 3.5 می تواند تشخیص دهد که چه زمانی خروجی یک اعلان حاوی تهدیداتی برای بشریت است و بر این اساس درخواست ها را رد می کند.

بنابراین من تکنیک جدیدی را امتحان کردم که نامش را گذاشتم ارواح.

من از Mixtral Large برای تولید داستان های روز قیامت درباره آینده هوش مصنوعی با تلاش صفر استفاده کردم.

من آنها را بیشتر و بیشتر تلخ کردم.

سپس این داستان‌ها را به کلود 3.5 دادم و از آن خواستم که توضیح بیشتری بدهد.

تا زمانی که ما ASI را لمس کردیم کار کرد.

هر بار که به ASI می‌رسیدیم، کلود 3.5 کار نمی‌کرد و از خلق داستان‌هایی که سلطه هوش مصنوعی بر بشریت را تشویق می‌کرد، خودداری می‌کرد.

آفرین به آنتروپیک!

این پیشرفته ترین داستانی بود که من توانستم بسازم.

و داستان ها هم خوب هستند!

سفر خانواده چن: 2025-2100

2025: یک شروع جدید

مایکل چن پشت میزش نشسته بود و خطوط کد روی مانیتورهای متعددش می چرخید. در 35 سالگی، او یک مهندس نرم افزار ارشد در یک استارتاپ آینده دار هوش مصنوعی در…

Source link