ما دائماً از سیل اطلاعات در همه جا غرق می شویم. این که آیا این مقالاتی است که ما به صورت آنلاین می خوانیم یا نتایج جستجو که می گیریم ، یک الگوریتم نامرئی وجود دارد که خستگی ناپذیر در پشت صحنه در جایی کار می کند تا ما را با محتوای حق (؟) متصل کند. یکی از ترفندهای شسته و رفته در چنین مواردی است شباهت– مفهومی که در ابتدا ممکن است به نظر ارعاب کننده برسد ، اما هنگامی که لایه های آن را به عقب برگردانید ، می فهمید که همه چیز در مورد اتصال ایده ها به روشی است که تقریباً بصری احساس می شود.
من هنوز اولین باری را که به اصول اولیه بازیابی اطلاعات در دانشگاه حفر کردم ، به یاد می آورم. این ایده که هر سندی را می توان به عنوان نقطه ای در یک فضای چند بعدی نشان داد ، هر بعد مربوط به یک کلمه یا اصطلاح منحصر به فرد در سند در ابتدا بسیار زیاد بود. این ایده که از کار محققانی مانند جرارد سالتون در دهه 1970 متولد شد ، فقط یک ترفند ریاضی نبود – این راهی برای گرفتن ذات زبان بود. در این مدل ، هر سند یک بردار از اصطلاحات/کلمات منحصر به فرد است و نحوه ارتباط این بردارها با یکدیگر می تواند چیزهای زیادی را در مورد چگونگی مشابه ایده های اساسی به ما بگوید. به ویژه شباهت كسین ، “زاویه” بین این بردارها را اندازه گیری می كند ، و بینش ساده و در عین حال عمیقی در مورد چگونگی ارتباط دو قطعه محتوا را ارائه می دهد …