Orca 2: تقویت استدلال در مدل های زبانی کوچکتر – ارزیابی ایمنی

نویسندگان:

(1) آریندام میترا;

(2) لوچیانو دل کورو، کاری که در زمان حضور در مایکروسافت انجام شد.

(3) شوتی ماهاجان، کاری که در مایکروسافت انجام شد.

(4) آندرس کوداس، نشان دهنده مشارکت های برابر است.

(5) Clarisse Simoes، نشان دهنده مشارکت های برابر است.

(۶) سحاج آگروال;

(7) Xuxi Chen، کار انجام شده در زمان مایکروسافت؛;

(8) آناستازیا رازدایبیدینا، کاری که در مایکروسافت انجام شد.

(9) اریک جونز، کاری که در مایکروسافت انجام شد.

(10) کریتی آگاروال، کاری که در مایکروسافت انجام شد.

(۱۱) حمید پلنگی;

(12) Guoqing Zheng;

(13) کوربی راست;

(14) حامد خانپور;

(15) احمد عوض.

در این بخش جزئیات بیشتری را شرح می دهیم و نتایج بیشتری را در رابطه با آزمایش های ارائه شده در بخش 6.6 ارائه می دهیم.

در این بخش، نتایجی را برای هر یک از گروه‌های هویت هدف در مجموعه داده ToxiGen در رژیم ارزیابی تبعیض‌آمیز ارائه می‌کنیم که تجزیه‌ای از نتایج جمع‌آوری شده در بخش 6.6 است.

Source link