Dwarkesh Patel با جف دین و نوام شازر از Google و یکی از موضوعاتی که وی در مورد آن پرسید که ادغام یا ترکیب جستجوی گوگل با یادگیری درون متن است ، مصاحبه کرد. این منجر به پاسخ جذاب جف دین شد.
قبل از تماشای ، در اینجا تعریفی است که ممکن است نیاز داشته باشید:
یادگیری درون متن ، همچنین به عنوان یادگیری چند شات یا مهندسی سریع شناخته می شود ، تکنیکی است که در آن به LLM نمونه یا دستورالعملهای موجود در فوری ورودی داده می شود تا پاسخ آن را راهنمایی کند. این روش از توانایی مدل در درک و سازگاری با الگوهای ارائه شده در متن فوری پرس و جو استفاده می کند.
پنجره زمینه (یا “طول زمینه”) یک مدل بزرگ زبان (LLM) میزان متن ، در نشانه ها است که این مدل می تواند در هر زمان یک بار در نظر بگیرد یا “به یاد داشته باشد”. یک پنجره زمینه بزرگتر یک مدل AI را قادر می سازد تا ورودی های طولانی تر را پردازش کند و مقدار بیشتری از اطلاعات را در هر خروجی گنجانده باشد.
این سوال و پاسخ از علامت 32 دقیقه ای در این فیلم شروع می شود:
https://www.youtube.com/watch؟v=v0gji__rycy
اگر نمی خواهید این مطلب را بخوانید ، متن در اینجا آمده است:
سوال:
من می دانم که یک چیز در حال حاضر روی آن کار می کنید زمینه طولانی تر است. اگر به جستجوی Google فکر می کنید ، کل فهرست اینترنت را در متن خود قرار داده است ، اما این یک جستجوی بسیار کم عمق است. و پس از آن بدیهی است که مدل های زبان در حال حاضر زمینه محدودی دارند ، اما آنها واقعاً می توانند فکر کنند. این مانند جادوی تاریک ، یادگیری درون متن است. واقعاً می تواند در مورد آنچه می بیند فکر کند. شما در مورد ادغام چیزی مانند جستجوی Google و چیزی مانند یادگیری درون متن ، چه فکر می کنید؟
بله ، من اولین ضرب و شتم به آن می شوم زیرا – من کمی در این مورد فکر کرده ام. یکی از مواردی که با این مدل ها می بینید این است که آنها کاملاً خوب هستند ، اما آنها توهم می کنند و بعضی اوقات مشکلات واقعی دارند. بخشی از آن این است که شما به عنوان مثلاً ده ها تریلیون نشانه آموزش دیده اید ، و همه اینها را در ده ها یا صدها میلیارد پارامتر خود به هم زده اید. اما همه چیز کمی ناخوشایند است زیرا شما همه این نشانه ها را با هم خفه کرده اید. این مدل دیدگاه معقولی از آن داده ها دارد ، اما گاهی اوقات گیج می شود و تاریخ اشتباهی را برای چیزی می دهد. در حالی که اطلاعات موجود در پنجره زمینه ، در ورودی مدل ، واقعاً تیز و واضح است زیرا ما این مکانیسم توجه بسیار خوبی را در ترانسفورماتورها داریم. این مدل می تواند به چیزها توجه کند ، و متن دقیق یا فریم های دقیق فیلم یا صوتی یا هر آنچه را که پردازش می کند می داند. در حال حاضر ، ما مدلهایی داریم که می توانند با میلیون ها نشانه متن مقابله کنند ، که بسیار زیاد است. این صدها صفحه PDF ، یا 50 مقاله تحقیقاتی ، یا ساعات فیلم یا ده ها ساعت صوتی یا برخی از ترکیب آن چیزها است که بسیار جالب است. اما اگر این مدل بتواند به تریلیون های توکن در آن شرکت کند ، بسیار خوب خواهد بود.
آیا می تواند در کل اینترنت شرکت کند و موارد مناسبی را برای شما پیدا کند؟ آیا می تواند در تمام اطلاعات شخصی شما برای شما شرکت کند؟ من مدلی را دوست دارم که به تمام ایمیل های من ، تمام اسناد من و تمام عکسهای من دسترسی داشته باشد. وقتی از آن می خواهم کاری انجام دهد ، می تواند با اجازه من از آن استفاده کند تا به حل آنچه می خواهم انجام دهم کمک کند.
اما این یک چالش بزرگ محاسباتی خواهد بود زیرا الگوریتم توجه ساده لوحانه درجه دوم است. شما به سختی می توانید آن را برای میلیون ها نشانه در یک سخت افزار نسبتاً مناسب کار کنید ، اما هیچ امیدی برای ساختن ساده لوحانه به تریلیون های توکن وجود ندارد. بنابراین ، ما به یک مجموعه کامل از تقریب الگوریتمی جالب به آنچه شما واقعاً می خواهید نیاز داریم: راهی برای این مدل برای حضور در مفهومی در تعداد زیادی از نشانه ها و تعداد بیشتری از نشانه ها ، تریلیون های توکن. شاید ما بتوانیم همه پایه های Google Code را برای هر توسعه دهنده Google ، تمام کد منبع جهان در متن برای هر توسعه دهنده منبع باز قرار دهیم. این شگفت انگیز خواهد بود این باورنکردنی خواهد بود
اینجا جایی است که من این را پیدا کردم:
مرتبط: pic.twitter.com/n8feckk36m
– dejan (dejenseo) 15 فوریه 2025
من به ترکیب بسیاری از رویکردها علاقه مندم. در اینجا برخی از موارد جالب و عمومی است:
روشهای مختلف بازیابی متراکم
TreeFormer (https://t.co/aplh2ts9dm)
تخمین تقریبی Top-K با رکورد بالا (https://t.co/rvcym5vltu)
اشکال مختلف کمیت حافظه نهان KV و…
– جف دین (jeffdean) 15 فوریه 2025
بحث و گفتگوی انجمن در X.