چگونه پروژه dbt خود را با مدل های زبان بزرگ تقویت کنیم


TL; DR

شما می توانید به طور خودکار وظایف معمولی پردازش زبان طبیعی (طبقه بندی، تجزیه و تحلیل احساسات، و غیره) را برای داده های متنی خود با استفاده از LLM با قیمتی معادل 10 دلار به ازای هر 1 میلیون ردیف (به کار و مدل بستگی دارد) حل کنید، و در محیط dbt خود باقی بمانید. دستورالعمل ها، جزئیات و کد در زیر آمده است


اگر از dbt به عنوان لایه تبدیل خود استفاده می کنید، ممکن است موقعیتی داشته باشید که بخواهید اطلاعات معناداری را از داده های متنی بدون ساختار استخراج کنید. چنین داده‌هایی ممکن است شامل نظرات مشتریان، عناوین، توضیحات، منابع/رسانه‌های Google Analytics و غیره باشد. ممکن است بخواهید آنها را در گروه‌هایی دسته‌بندی کنید یا احساسات و لحن‌ها را واکشی کنید.

راه حل های بالقوه خواهد بود

  • مدل‌های یادگیری ماشین (یا با یک LLM تماس بگیرید) خارج از جریان dbt استفاده کنید
  • با استفاده از دستورات CASE WHEN، دسته بندی های ساده را در داخل مدل های dbt تعریف کنید
  • دسته‌ها را از قبل تعریف کنید و آنها را در لایه پایگاه داده خام خود آپلود کنید یا از عملکرد dbt seed استفاده کنید.

همانطور که مدل‌های dbt پایتون در حال تکامل هستند، یک راه‌حل دیگر وجود دارد: می‌توانید این وظایف پردازش زبان طبیعی را در محیط dbt خود به عنوان یکی از مدل‌های dbt نگه دارید.

اگر ممکن است برای شما مفید باشد، راهنمای گام به گام نحوه استفاده از OpenAI API در پروژه dbt خود را در زیر ببینید. شما می توانید همه چیز را از این راهنما در محیط خود بازتولید کنید، با داشتن کد و داده …

Source link