من برای اولین بار در سال 1990 به عنوان یک دانشجوی کارشناسی با شبکه های عصبی آشنا شدم. در آن زمان، بسیاری از افراد در جامعه هوش مصنوعی درباره پتانسیل شبکه های عصبی هیجان زده بودند، شبکه های عصبی که چشمگیر بودند، اما هنوز نمی توانستند وظایف مهم و دنیای واقعی را انجام دهند. من هم هیجان زده بودم! من پایان نامه ارشد خود را در مورد استفاده از محاسبات موازی برای آموزش شبکه های عصبی انجام دادم، با این فکر که ما فقط به 32 برابر قدرت محاسباتی بیشتر برای رسیدن به آن نیاز داریم. من بودم مسیر خاموش در آن زمان ما نیاز داشتیم 1 میلیون بار به همان اندازه قدرت محاسباتی
21 سال بعد، با قدرت محاسباتی به طور تصاعدی بیشتر، زمان آن رسیده بود که شکاف دیگری در شبکه های عصبی ایجاد شود. در سال 2011، من و چند نفر دیگر در گوگل شروع به آموزش شبکه های عصبی بسیار بزرگ با استفاده از میلیون ها فریم به صورت تصادفی از ویدیوهای آنلاین کردیم. نتایج قابل توجه بود. بدون آموزش صریح، سیستم به طور خودکار یاد گرفت که اشیاء مختلف را تشخیص دهد (به خصوص گربه ها، اینترنت پر از گربه است). این یک کشف تحولآفرین در هوش مصنوعی در میان رشتههای طولانی موفقیتهایی بود که هنوز ادامه دارد – در گوگل و جاهای دیگر.
من تاریخچه شبکههای عصبی خودم را به اشتراک میگذارم تا نشان دهم که اگرچه پیشرفت در هوش مصنوعی ممکن است در حال حاضر سریع باشد، اما از یک قوس طولانی پیشرفت ناشی میشود. در واقع، قبل از سال 2012، کامپیوترها برای دیدن، شنیدن یا درک زبان گفتاری یا نوشتاری بسیار مشکل داشتند. در طول 10 سال گذشته، ما پیشرفت سریعی در زمینه هوش مصنوعی داشته ایم.
امروز، ما در مورد بسیاری از پیشرفتهای اخیر در هوش مصنوعی که گوگل در آن پیشرو است هیجانزده هستیم – نه فقط در بخش فنی، بلکه در استقرار مسئولانه آن به روشهایی که به مردم در سراسر جهان کمک میکند. این به معنای استقرار هوش مصنوعی در Google Cloud، در محصولات ما از تلفنهای Pixel گرفته تا جستجوی Google، و در بسیاری از زمینههای علمی و سایر تلاشهای انسانی است.
ما از چالش ها و خطراتی که هوش مصنوعی به عنوان یک فناوری در حال ظهور ایجاد می کند آگاه هستیم. ما اولین شرکت بزرگی بودیم که مجموعهای از اصول هوش مصنوعی را منتشر و عملیاتی کردیم، و پیروی از آنها در واقع (و برخی ممکن است به اشتباه فکر کنند) به ما این امکان را داد که روی پیشرفت سریع در فناوریهایی تمرکز کنیم که میتواند برای همه مفید باشد. درست کردن هوش مصنوعی باید یک تلاش جمعی باشد – نه فقط محققان، بلکه متخصصان حوزه، توسعه دهندگان، اعضای جامعه، مشاغل، دولت ها و شهروندان را در بر می گیرد.
من خوشحالم که امروز در سه حوزه تحول آفرین هوش مصنوعی اعلامیه می کنم: اول، استفاده از هوش مصنوعی برای قابل دسترس کردن فناوری به زبان های بیشتری. دوم، بررسی اینکه چگونه هوش مصنوعی ممکن است خلاقیت را تقویت کند. و سوم، در AI for Social Good، از جمله سازگاری با آب و هوا.
1. پشتیبانی از 1000 زبان با هوش مصنوعی
زبان برای نحوه ارتباط افراد و درک جهان از اهمیت اساسی برخوردار است. بنابراین جای تعجب نیست که طبیعی ترین روشی است که مردم با فناوری درگیر می شوند. اما بیش از 7000 زبان در سراسر جهان صحبت می شود و امروزه تنها تعداد کمی از آنها به خوبی به صورت آنلاین معرفی شده اند. این بدان معناست که رویکردهای سنتی برای آموزش مدلهای زبان بر روی متن از طریق وب، نمیتوانند تنوع نحوه برقراری ارتباط ما در سطح جهانی را به تصویر بکشند. این از لحاظ تاریخی مانعی در پیگیری ماموریت ما برای دسترسی جهانی و مفید به اطلاعات جهان بوده است.
به همین دلیل است که امروز ابتکار 1000 زبان را اعلام می کنیم، یک تعهد بلندپروازانه برای ساخت یک مدل هوش مصنوعی که از 1000 زبان رایج پشتیبانی می کند و باعث می شود میلیاردها نفر در جوامع به حاشیه رانده شده در سراسر جهان درگیر شوند. این کار چندین سال طول خواهد کشید – برخی حتی ممکن است آن را یک مهتاب بنامند – اما ما در حال حاضر گامهای معناداری در اینجا برداشتهایم و مسیر را به وضوح میبینیم. فناوری به سرعت در حال تغییر است – از روشی که مردم از آن استفاده می کنند تا توانایی های آن. ما به طور فزاینده ای می بینیم که مردم اطلاعات را از طریق روش های جدید مانند تصاویر، فیلم ها و گفتار پیدا می کنند و به اشتراک می گذارند. و پیشرفتهترین مدلهای زبان ما چندوجهی هستند – به این معنی که میتوانند قفل اطلاعات را در قالبهای مختلف باز کنند. با این تغییرات لرزه ای فرصت های جدیدی به وجود می آید.

به عنوان بخشی از این ابتکار و تمرکز ما بر چندوجهی بودن، ما یک مدل گفتار جهانی – یا USM – ایجاد کردهایم که بر روی بیش از 400 زبان آموزش داده شده است و آن را به بزرگترین پوشش زبانی که در مدل گفتاری تا به امروز دیده شده است تبدیل کردهایم. همانطور که ما این کار را گسترش می دهیم، با جوامع در سراسر جهان برای منبع داده های گفتاری نماینده شریک هستیم. ما اخیراً با همکاری نزدیک با محققان و سازمانها در آفریقا برای ایجاد و انتشار دادهها، تایپ صوتی را برای 9 زبان آفریقایی دیگر در Gboard اعلام کردیم. و در جنوب آسیا، ما به طور فعال با دولتهای محلی، سازمانهای غیردولتی، و مؤسسات دانشگاهی کار میکنیم تا در نهایت نمونههای صوتی نماینده از سراسر گویشها و زبانهای مناطق را جمعآوری کنیم.
2. توانمندسازی سازندگان و هنرمندان با هوش مصنوعی
مدلهای مولد مبتنی بر هوش مصنوعی این پتانسیل را دارند که خلاقیت را باز کنند، و به مردم در فرهنگها کمک میکنند تا با استفاده از ویدئو، تصاویر و طراحی خود را به روشهایی بیان کنند که قبلاً نمیتوانستند.
محققان ما به سختی در حال توسعه مدلهایی بودهاند که از نظر کیفیت پیشتاز این حوزه هستند و تصاویری را تولید میکنند که ارزیابیکنندگان انسانی نسبت به مدلهای دیگر ترجیح میدهند. ما اخیراً پیشرفتهای مهمی را به اشتراک گذاشتیم، مدل انتشار خود را برای دنبالههای ویدیویی اعمال کردیم و ویدیوهای طولانی منسجمی را برای دنبالهای از اعلانهای متنی ایجاد کردیم. ما میتوانیم این تکنیکها را برای تولید ویدیو ترکیب کنیم – برای اولین بار، امروز ویدیوی با وضوح فوقالعاده تولید شده توسط هوش مصنوعی را به اشتراک میگذاریم:
ما به زودی فناوریهای تولید متن به تصویر خود را به آشپزخانه آزمایشی هوش مصنوعی خواهیم آورد، که راهی برای یادگیری، تجربه و ارائه بازخورد در مورد فناوری هوش مصنوعی در حال ظهور فراهم میکند. ما مشتاقانه منتظر شنیدن بازخورد کاربران در مورد این دموها در فصل دوم AI Test Kitchen هستیم. شما میتوانید با «City Dreamer» شهرهایی با موضوع بسازید و شخصیتهای هیولایی دوستانه طراحی کنید که میتوانند با «Wobble» حرکت کنند، برقصند و بپرند – همه با استفاده از دستورات متنی.
علاوه بر تصاویر دوبعدی، تبدیل متن به سه بعدی با DreamFusion اکنون یک واقعیت است، که یک مدل سه بعدی تولید می کند که می تواند از هر زاویه ای مشاهده شود و می تواند در هر محیط سه بعدی ترکیب شود. محققان همچنین با AudioLM در حال پیشرفت قابل توجهی در فضای تولید صدا هستند، مدلی که یاد می گیرد گفتار واقعی و موسیقی پیانو را فقط با گوش دادن به صدا تولید کند. همانطور که یک مدل زبان ممکن است کلمات و جملاتی را که از یک دستور متنی پیروی میکنند، پیشبینی کند، AudioLM نیز میتواند پیشبینی کند که کدام صداها باید پس از چند ثانیه از یک فرمان صوتی دنبال شوند.
ما در حال توسعه این ابزارها با جوامع خلاق در سراسر جهان هستیم. به عنوان مثال، ما در حال کار با نویسندگانی هستیم که از Wordcraft استفاده می کنند، که بر روی سیستم گفتگوی پیشرفته LaMDA ما ساخته شده است تا تولید متن مبتنی بر هوش مصنوعی را آزمایش کنیم. شما می توانید جلد اول این داستان ها را در کارگاه آموزشی Wordcraft Writers بخوانید.
3. پرداختن به تغییرات آب و هوا و چالش های سلامت با هوش مصنوعی
هوش مصنوعی همچنین پتانسیل زیادی برای مقابله با اثرات تغییرات آب و هوا دارد، از جمله کمک به مردم برای سازگاری با چالشهای جدید. یکی از بدترین آتشسوزیها، آتشسوزیهای جنگلی است که امروزه صدها هزار نفر را تحت تأثیر قرار میدهد و در تعداد و مقیاس آن در حال افزایش است.
امروز، خوشحالم که به اشتراک بگذارم که استفاده از تصاویر ماهوارهای را برای آموزش مدلهای هوش مصنوعی برای شناسایی و ردیابی آتشسوزیهای جنگلی در زمان واقعی، ارتقا دادهایم و به پیشبینی چگونگی تکامل و گسترش آنها کمک میکنیم. ما این سیستم ردیابی آتشسوزی را در ایالات متحده، کانادا، مکزیک راهاندازی کردهایم و در بخشهایی از استرالیا در حال گسترش است، و از ژوئیه بیش از 30 رویداد بزرگ آتشسوزی در ایالات متحده و کانادا را پوشش دادهایم و به اطلاع کاربران و اطفای حریق کمک میکنیم. تیم هایی با بیش از 7 میلیون بازدید در جستجوی گوگل و نقشه ها.

ما همچنین از هوش مصنوعی برای پیش بینی سیل استفاده می کنیم، یکی دیگر از الگوهای شدید آب و هوایی که با تغییرات آب و هوایی تشدید می شود. ما قبلاً به جوامع کمک کردهایم تا زمان وقوع سیل و عمق آب را پیشبینی کنند – در سال 2021، 115 میلیون اعلان هشدار سیل را برای 23 میلیون نفر از طریق جستجوی Google و Maps ارسال کردیم که به نجات جانهای بیشماری کمک کرد. امروز به اشتراک می گذاریم که اکنون در حال گسترش پوشش خود به کشورهای بیشتری در آمریکای جنوبی (برزیل و کلمبیا)، کشورهای جنوب صحرای آفریقا (بورکینافاسو، کامرون، چاد، جمهوری دموکراتیک کنگو، ساحل عاج، غنا، گینه، مالاوی، نیجریه، سیرالئون، آنگولا، سودان جنوبی، نامیبیا، لیبریا و آفریقای جنوبی و جنوب آسیا (سریلانکا). ما از یک تکنیک هوش مصنوعی به نام یادگیری انتقال استفاده کردهایم تا بتوانیم آن را در مناطقی که دادههای کمتری در دسترس است، کار کنیم. ما همچنین راه اندازی جهانی Google FloodHub را اعلام می کنیم، یک پلت فرم جدید که زمان و مکان وقوع سیل را نشان می دهد. همچنین در آینده این اطلاعات را به جستجوی Google و Maps خواهیم آورد تا به افراد بیشتری کمک کنیم در شرایط سیل به ایمنی برسند.

در نهایت، هوش مصنوعی به دسترسی بیشتر به مراقبت های بهداشتی در مناطقی که منابع کمتری دارند کمک می کند. به عنوان مثال، ما در حال تحقیق در مورد روشهایی هستیم که هوش مصنوعی میتواند به خواندن و تجزیه و تحلیل خروجیهای دستگاههای سونوگرافی کمهزینه کمک کند، و به والدین اطلاعاتی را که برای شناسایی مشکلات اولیه در بارداری نیاز دارند، میدهد. ما همچنین قصد داریم به همکاری با مراقبان و آژانس های بهداشت عمومی ادامه دهیم تا دسترسی به غربالگری رتینوپاتی دیابتی را از طریق ابزار ارزیابی خودکار بیماری شبکیه (ARDA) گسترش دهیم. از طریق ARDA، ما بیش از 150000 بیمار را در کشورهایی مانند هند، تایلند، آلمان، ایالات متحده و بریتانیا در سراسر استفاده مستقر و مطالعات آینده نگر با موفقیت غربالگری کردیم – بیش از نیمی از این بیماران تنها در سال 2022. علاوه بر این، ما در حال بررسی این موضوع هستیم که چگونه هوش مصنوعی به تلفن شما کمک می کند تا ضربان تنفس و ضربان قلب را تشخیص دهد. این کار بخشی از دیدگاه گستردهتر Google Health است که شامل دسترسی بیشتر به مراقبتهای بهداشتی برای هر کسی که گوشی هوشمند دارد، میشود.
هوش مصنوعی در سال های آینده
پیشرفتهای ما در معماری شبکههای عصبی، الگوریتمهای یادگیری ماشین و رویکردهای جدید سختافزار برای یادگیری ماشین به هوش مصنوعی کمک کرده است تا مشکلات مهم دنیای واقعی را برای میلیاردها نفر حل کند. خیلی بیشتر در راه است. آنچه امروز به اشتراک میگذاریم، چشمانداز امیدوارکنندهای برای آینده است – هوش مصنوعی به ما اجازه میدهد دوباره تصور کنیم که فناوری چگونه میتواند مفید باشد. امیدواریم با بررسی این قابلیتهای جدید و استفاده از این فناوری برای بهبود زندگی مردم در سراسر جهان، به ما بپیوندید.