نویسندگان:
(1) کیان یانگ، دانشگاه ژجیانگ، مشارکت برابر. این کار در طول دوره کارآموزی کیان یانگ در گروه علی بابا انجام شد.
(2) جین خو، گروه علی بابا، مشارکت برابر؛
(3) ونروی لیو، دانشگاه ژجیانگ؛
(4) یونفی چو، گروه علی بابا؛
(5) Xiaohuan Zhou، Alibaba Group;
(6) Yichong Leng، Alibaba Group.
(7) یوانجون لو، گروه علی بابا؛
(8) ژو ژائو، گروه علی بابا و مربوط به ژو ژائو ([email protected])
(9) Yichong Leng، دانشگاه ژجیانگ
(10) چانگ ژو، گروه علی بابا و مربوط به چانگ ژو ([email protected])
(11) جینگرن ژو، گروه علی بابا.
در جدول 5، ارزیابی عملکرد هر مدل را در بین وظایف مختلف در معیار پایه ترسیم می کنیم. به استثنای Speaker Gender Recognition و Synthesized Voice Detection که وظایف انتخابی باینری هستند، همه وظایف دیگر نیاز به انتخاب از چهار گزینه دارند. به این ترتیب، یک انتخاب تصادفی در مجموعه دادههای تشخیص جنسیت بلندگو و تشخیص صدای سنتز شده از نظر تئوری به دقت 50 درصد میرسد در حالی که دقت مورد انتظار برای انتخابهای تصادفی در مجموعه دادههای باقیمانده 25 درصد است. در نتیجه، هر معیار عملکردی که این خطوط پایه تصادفی را تقریب میکند، نشاندهنده عدم وجود مهارت قابل تشخیص در وظایف مربوطه است.