نویسندگان:
(1) Yingxu He، گروه علوم کامپیوتر دانشگاه ملی سنگاپور {[email protected]};
(2) Qiqi Sun، کالج علوم زیستی دانشگاه Nankai {[email protected]}.
جدول پیوندها
2. روش شناسی
در این بخش، ما رویکرد پیشنهادی خود را برای جمعآوری خودکار زیرنویسها برای تصاویر سنجش از راه دور با راهنمایی LLMها برای توصیف حاشیهنویسیهای شی آنها شرح میدهیم. در این کار، ما تعداد اشیاء در هر تصویر را به بیش از 15 محدود می کنیم، که یک طرح فضایی نسبتاً ساده را برای LLM تضمین می کند. رویکرد ما شامل سه مرحله اصلی است: (1) توسعه APIها برای انجام تجزیه و تحلیل جغرافیایی و توصیف روابط فضایی بین اشیاء، (2) API را وادار می کند تا با کمک APIها زیرنویس ایجاد کند، و (3) ارزیابی و انتخاب عنوان. در زیر هر مرحله را به تفصیل توضیح می دهیم.
2.1 APIهای رابطه فضایی
LLM در پردازش اطلاعات جغرافیایی دو بعدی ناتوان است، بنابراین ما چندین رویکرد تحلیلی را برای تجزیه و تحلیل روابط فضایی بین اشیاء اجرا کردیم. با الهام از شرحهای ارائه شده توسط مقاله RSICD، ما فقط بر تجزیه و تحلیل فواصل بین اشیاء، تمرکز مکانهای اشیا، اشکال تشکیلشده توسط گروههای اشیاء و روابط مهم بین اشیاء تمرکز کردیم.
2.1.1 فاصله
در Xview و Dota …