انجمن ها، چت ها و انجمن ها منبع بی پایانی از اطلاعات در مورد موضوعات متعددی هستند. Slack اغلب جایگزین اسناد فنی میشود و انجمنهای تلگرام و دیسکورد به سوالات مربوط به بازی، استارتآپ، رمزنگاری و سفر کمک میکنند. علیرغم ارتباط اطلاعات دست اول، اغلب به شدت بدون ساختار است و جستجو را دشوار می کند. در این مقاله پیچیدگیهای پیادهسازی ربات تلگرام را بررسی میکنیم که با استخراج اطلاعات از تاریخچه پیامهای چت، پاسخ سوالات را پیدا میکند.
چالشهایی که در انتظار ما هستند:
- پیام های مرتبط را پیدا کنید. پاسخ ممکن است در گفتگوی چند نفر یا در پیوندی به منابع خارجی پراکنده باشد.
جریان کاربر اصلی چت بات قرار است اجرا کنیم
- کاربر از ربات سوال می پرسد
- ربات نزدیک ترین پاسخ ها را در تاریخچه پیام ها پیدا می کند
- ربات نتایج جستجو را با کمک LLM خلاصه می کند
- پاسخ نهایی را با پیوندهایی به پیام های مربوطه به کاربر برمی گرداند
بیایید مراحل اصلی این جریان کاربر را طی کنیم و چالش های اصلی را که با آن روبرو خواهیم شد برجسته کنیم.
آماده سازی داده ها
برای تهیه یک تاریخچه پیام برای جستجو، باید جاسازی های این پیام ها را ایجاد کنیم – نمایش متن بردار. در حالی که با یک مقاله ویکی یا سند PDF سروکار داریم، متن را به …