فشار دادن عملی بودن حملات صوتی جعبه سیاه در برابر مدل های تشخیص بلندگو: ضمیمه

چکیده و مقدمه

پیشینه و انگیزه

آموزش طوطی: امکان سنجی و ارزیابی

نسل PT-AE: دیدگاه قابل انتقال و ادراک مشترک

بهینه سازی حملات PT-AE جعبه سیاه

ارزیابی های تجربی

کار مرتبط

نتیجه گیری و مراجع

ضمیمه

ضمیمه

الف. مدل های تشخیص بلندگو

1) مکانیسم های تشخیص سخنران: مدل های تشخیص بلندگو[6]، [5]، [86]، [67] معمولاً به مدل‌های آماری دسته‌بندی می‌شوند، مانند مدل گاوسی-مخلوط-مدل (GMM) مبتنی بر مدل پس‌زمینه جهانی (UBM) [96] و تحلیل افتراقی احتمالی خطی i-vector (PLDA) [38]، [85]و مدل های شبکه عصبی عمیق (DNN). [68]، [41]. سه مرحله در تشخیص بلندگو وجود دارد.

  1. در مرحله آموزش، یکی از مؤلفه‌های کلیدی استخراج ویژگی‌های آکوستیک بلندگوها است که معمولاً با ویژگی‌های گفتاری کم‌بعد رمزگذاری‌شده نشان داده می‌شوند (به عنوان مثال، i-vectors) [38] و بردارهای X [100]). سپس، این ویژگی ها را می توان توسط یک طبقه بندی (به عنوان مثال، PLDA) آموزش داد [57]) برای تشخیص بلندگوهای مختلف.

2) در طول مرحله ثبت نام، برای اینکه طبقه بندی کننده الگوی صدای گوینده را بیاموزد، گوینده معمولاً نیاز به ارائه چندین متن وابسته به متن دارد (مانند سیری) [3] و آمازون اکو [1]) یا نمونه های گفتار مستقل از متن به سیستم تشخیص گوینده. بسته به …

Source link