در این مقاله، نحوه ایجاد خط لوله داده را بررسی خواهیم کرد که به طور مداوم جاسازیهای اسناد را در پایگاه داده برداری Redis نمایه میکند. این راه حل از سرویس های مختلف Google Cloud، از جمله Cloud Storage، CloudSQL، Cloud Composer (Airflow) و Cloud Run به همراه LangChain، OpenAI و Redis به عنوان ذخیره ساز استفاده می کند. سپس اسناد نمایه شده را می توان در یک سیستم پاسخگویی به پرسش مبتنی بر RAG مورد استفاده قرار داد.
بخش 1: بررسی اجمالی راه حل
- سطل ذخیره سازی GCP: به عنوان مخزن مرکزی برای انواع اسناد مانند PDF، فایل های متنی و HTML عمل می کند.
- جذب سند: اسناد تازه ایجاد شده را جمع آوری کرده و در سطل GCP Storage ذخیره می کند.
- جریان هوا (آهنگساز ابر) به عنوان ارکستر: کل گردش کار را به صورت روزانه خودکار و مدیریت می کند. وظایف با استفاده از اپراتورهای Google Cloud Run اجرا می شوند.
وظایف جریان هوا:
- دریافت اسناد از Confluence ایجاد شده در 24 ساعت گذشته.
- محتوای HTML ایجاد شده از CMS سازمان را در 24 ساعت گذشته دریافت کنید.
- اعلانهای فرآیند روزانه را از هشدارهای Splunk (وب هوک) دریافت کنید.
- خلاصه های روزانه را از خدمات خاص در New Relic دریافت کنید.
- اسناد را از منابع اضافی بازیابی کنید، مانند کد منبع از git repo، و استفاده کنید
Repopack برای بستهبندی کد هر مخزن (*.py، *.java) در یک فایل txt. - ذخیره فایل های txt، html و pdf…