به سوی تولید شرح تصاویر ماهواره ای خودکار با استفاده از LLM: روش شناسی

نویسندگان:

(1) Yingxu He، گروه علوم کامپیوتر دانشگاه ملی سنگاپور {[email protected]};

(2) Qiqi Sun، کالج علوم زیستی دانشگاه Nankai {[email protected]}.

2. روش شناسی

در این بخش، ما رویکرد پیشنهادی خود را برای جمع‌آوری خودکار زیرنویس‌ها برای تصاویر سنجش از راه دور با راهنمایی LLMها برای توصیف حاشیه‌نویسی‌های شی آنها شرح می‌دهیم. در این کار، ما تعداد اشیاء در هر تصویر را به بیش از 15 محدود می کنیم، که یک طرح فضایی نسبتاً ساده را برای LLM تضمین می کند. رویکرد ما شامل سه مرحله اصلی است: (1) توسعه APIها برای انجام تجزیه و تحلیل جغرافیایی و توصیف روابط فضایی بین اشیاء، (2) API را وادار می کند تا با کمک APIها زیرنویس ایجاد کند، و (3) ارزیابی و انتخاب عنوان. در زیر هر مرحله را به تفصیل توضیح می دهیم.

2.1 APIهای رابطه فضایی

LLM در پردازش اطلاعات جغرافیایی دو بعدی ناتوان است، بنابراین ما چندین رویکرد تحلیلی را برای تجزیه و تحلیل روابط فضایی بین اشیاء اجرا کردیم. با الهام از شرح‌های ارائه شده توسط مقاله RSICD، ما فقط بر تجزیه و تحلیل فواصل بین اشیاء، تمرکز مکان‌های اشیا، اشکال تشکیل‌شده توسط گروه‌های اشیاء و روابط مهم بین اشیاء تمرکز کردیم.

2.1.1 فاصله

در Xview و Dota …

Source link