3 روشی که هوش مصنوعی فناوری‌های مفید را در سراسر جهان مقیاس‌بندی می‌کند

من برای اولین بار در سال 1990 به عنوان یک دانشجوی کارشناسی با شبکه های عصبی آشنا شدم. در آن زمان، بسیاری از افراد در جامعه هوش مصنوعی درباره پتانسیل شبکه های عصبی هیجان زده بودند، شبکه های عصبی که چشمگیر بودند، اما هنوز نمی توانستند وظایف مهم و دنیای واقعی را انجام دهند. من هم هیجان زده بودم! من پایان نامه ارشد خود را در مورد استفاده از محاسبات موازی برای آموزش شبکه های عصبی انجام دادم، با این فکر که ما فقط به 32 برابر قدرت محاسباتی بیشتر برای رسیدن به آن نیاز داریم. من بودم مسیر خاموش در آن زمان ما نیاز داشتیم 1 میلیون بار به همان اندازه قدرت محاسباتی

21 سال بعد، با قدرت محاسباتی به طور تصاعدی بیشتر، زمان آن رسیده بود که شکاف دیگری در شبکه های عصبی ایجاد شود. در سال 2011، من و چند نفر دیگر در گوگل شروع به آموزش شبکه های عصبی بسیار بزرگ با استفاده از میلیون ها فریم به صورت تصادفی از ویدیوهای آنلاین کردیم. نتایج قابل توجه بود. بدون آموزش صریح، سیستم به طور خودکار یاد گرفت که اشیاء مختلف را تشخیص دهد (به خصوص گربه ها، اینترنت پر از گربه است). این یک کشف تحول‌آفرین در هوش مصنوعی در میان رشته‌های طولانی موفقیت‌هایی بود که هنوز ادامه دارد – در گوگل و جاهای دیگر.

من تاریخچه شبکه‌های عصبی خودم را به اشتراک می‌گذارم تا نشان دهم که اگرچه پیشرفت در هوش مصنوعی ممکن است در حال حاضر سریع باشد، اما از یک قوس طولانی پیشرفت ناشی می‌شود. در واقع، قبل از سال 2012، کامپیوترها برای دیدن، شنیدن یا درک زبان گفتاری یا نوشتاری بسیار مشکل داشتند. در طول 10 سال گذشته، ما پیشرفت سریعی در زمینه هوش مصنوعی داشته ایم.

امروز، ما در مورد بسیاری از پیشرفت‌های اخیر در هوش مصنوعی که گوگل در آن پیشرو است هیجان‌زده هستیم – نه فقط در بخش فنی، بلکه در استقرار مسئولانه آن به روش‌هایی که به مردم در سراسر جهان کمک می‌کند. این به معنای استقرار هوش مصنوعی در Google Cloud، در محصولات ما از تلفن‌های Pixel گرفته تا جستجوی Google، و در بسیاری از زمینه‌های علمی و سایر تلاش‌های انسانی است.

ما از چالش ها و خطراتی که هوش مصنوعی به عنوان یک فناوری در حال ظهور ایجاد می کند آگاه هستیم. ما اولین شرکت بزرگی بودیم که مجموعه‌ای از اصول هوش مصنوعی را منتشر و عملیاتی کردیم، و پیروی از آن‌ها در واقع (و برخی ممکن است به اشتباه فکر کنند) به ما این امکان را داد که روی پیشرفت سریع در فناوری‌هایی تمرکز کنیم که می‌تواند برای همه مفید باشد. درست کردن هوش مصنوعی باید یک تلاش جمعی باشد – نه فقط محققان، بلکه متخصصان حوزه، توسعه دهندگان، اعضای جامعه، مشاغل، دولت ها و شهروندان را در بر می گیرد.

من خوشحالم که امروز در سه حوزه تحول آفرین هوش مصنوعی اعلامیه می کنم: اول، استفاده از هوش مصنوعی برای قابل دسترس کردن فناوری به زبان های بیشتری. دوم، بررسی اینکه چگونه هوش مصنوعی ممکن است خلاقیت را تقویت کند. و سوم، در AI for Social Good، از جمله سازگاری با آب و هوا.

1. پشتیبانی از 1000 زبان با هوش مصنوعی

زبان برای نحوه ارتباط افراد و درک جهان از اهمیت اساسی برخوردار است. بنابراین جای تعجب نیست که طبیعی ترین روشی است که مردم با فناوری درگیر می شوند. اما بیش از 7000 زبان در سراسر جهان صحبت می شود و امروزه تنها تعداد کمی از آنها به خوبی به صورت آنلاین معرفی شده اند. این بدان معناست که رویکردهای سنتی برای آموزش مدل‌های زبان بر روی متن از طریق وب، نمی‌توانند تنوع نحوه برقراری ارتباط ما در سطح جهانی را به تصویر بکشند. این از لحاظ تاریخی مانعی در پیگیری ماموریت ما برای دسترسی جهانی و مفید به اطلاعات جهان بوده است.

به همین دلیل است که امروز ابتکار 1000 زبان را اعلام می کنیم، یک تعهد بلندپروازانه برای ساخت یک مدل هوش مصنوعی که از 1000 زبان رایج پشتیبانی می کند و باعث می شود میلیاردها نفر در جوامع به حاشیه رانده شده در سراسر جهان درگیر شوند. این کار چندین سال طول خواهد کشید – برخی حتی ممکن است آن را یک مهتاب بنامند – اما ما در حال حاضر گام‌های معناداری در اینجا برداشته‌ایم و مسیر را به وضوح می‌بینیم. فناوری به سرعت در حال تغییر است – از روشی که مردم از آن استفاده می کنند تا توانایی های آن. ما به طور فزاینده ای می بینیم که مردم اطلاعات را از طریق روش های جدید مانند تصاویر، فیلم ها و گفتار پیدا می کنند و به اشتراک می گذارند. و پیشرفته‌ترین مدل‌های زبان ما چندوجهی هستند – به این معنی که می‌توانند قفل اطلاعات را در قالب‌های مختلف باز کنند. با این تغییرات لرزه ای فرصت های جدیدی به وجود می آید.

به عنوان بخشی از این ابتکار و تمرکز ما بر چندوجهی بودن، ما یک مدل گفتار جهانی – یا USM – ایجاد کرده‌ایم که بر روی بیش از 400 زبان آموزش داده شده است و آن را به بزرگترین پوشش زبانی که در مدل گفتاری تا به امروز دیده شده است تبدیل کرده‌ایم. همانطور که ما این کار را گسترش می دهیم، با جوامع در سراسر جهان برای منبع داده های گفتاری نماینده شریک هستیم. ما اخیراً با همکاری نزدیک با محققان و سازمان‌ها در آفریقا برای ایجاد و انتشار داده‌ها، تایپ صوتی را برای 9 زبان آفریقایی دیگر در Gboard اعلام کردیم. و در جنوب آسیا، ما به طور فعال با دولت‌های محلی، سازمان‌های غیردولتی، و مؤسسات دانشگاهی کار می‌کنیم تا در نهایت نمونه‌های صوتی نماینده از سراسر گویش‌ها و زبان‌های مناطق را جمع‌آوری کنیم.

2. توانمندسازی سازندگان و هنرمندان با هوش مصنوعی

مدل‌های مولد مبتنی بر هوش مصنوعی این پتانسیل را دارند که خلاقیت را باز کنند، و به مردم در فرهنگ‌ها کمک می‌کنند تا با استفاده از ویدئو، تصاویر و طراحی خود را به روش‌هایی بیان کنند که قبلاً نمی‌توانستند.

محققان ما به سختی در حال توسعه مدل‌هایی بوده‌اند که از نظر کیفیت پیشتاز این حوزه هستند و تصاویری را تولید می‌کنند که ارزیابی‌کنندگان انسانی نسبت به مدل‌های دیگر ترجیح می‌دهند. ما اخیراً پیشرفت‌های مهمی را به اشتراک گذاشتیم، مدل انتشار خود را برای دنباله‌های ویدیویی اعمال کردیم و ویدیوهای طولانی منسجمی را برای دنباله‌ای از اعلان‌های متنی ایجاد کردیم. ما می‌توانیم این تکنیک‌ها را برای تولید ویدیو ترکیب کنیم – برای اولین بار، امروز ویدیوی با وضوح فوق‌العاده تولید شده توسط هوش مصنوعی را به اشتراک می‌گذاریم:

ما به زودی فناوری‌های تولید متن به تصویر خود را به آشپزخانه آزمایشی هوش مصنوعی خواهیم آورد، که راهی برای یادگیری، تجربه و ارائه بازخورد در مورد فناوری هوش مصنوعی در حال ظهور فراهم می‌کند. ما مشتاقانه منتظر شنیدن بازخورد کاربران در مورد این دموها در فصل دوم AI Test Kitchen هستیم. شما می‌توانید با «City Dreamer» شهرهایی با موضوع بسازید و شخصیت‌های هیولایی دوستانه طراحی کنید که می‌توانند با «Wobble» حرکت کنند، برقصند و بپرند – همه با استفاده از دستورات متنی.

علاوه بر تصاویر دوبعدی، تبدیل متن به سه بعدی با DreamFusion اکنون یک واقعیت است، که یک مدل سه بعدی تولید می کند که می تواند از هر زاویه ای مشاهده شود و می تواند در هر محیط سه بعدی ترکیب شود. محققان همچنین با AudioLM در حال پیشرفت قابل توجهی در فضای تولید صدا هستند، مدلی که یاد می گیرد گفتار واقعی و موسیقی پیانو را فقط با گوش دادن به صدا تولید کند. همانطور که یک مدل زبان ممکن است کلمات و جملاتی را که از یک دستور متنی پیروی می‌کنند، پیش‌بینی کند، AudioLM نیز می‌تواند پیش‌بینی کند که کدام صداها باید پس از چند ثانیه از یک فرمان صوتی دنبال شوند.

ما در حال توسعه این ابزارها با جوامع خلاق در سراسر جهان هستیم. به عنوان مثال، ما در حال کار با نویسندگانی هستیم که از Wordcraft استفاده می کنند، که بر روی سیستم گفتگوی پیشرفته LaMDA ما ساخته شده است تا تولید متن مبتنی بر هوش مصنوعی را آزمایش کنیم. شما می توانید جلد اول این داستان ها را در کارگاه آموزشی Wordcraft Writers بخوانید.

3. پرداختن به تغییرات آب و هوا و چالش های سلامت با هوش مصنوعی

هوش مصنوعی همچنین پتانسیل زیادی برای مقابله با اثرات تغییرات آب و هوا دارد، از جمله کمک به مردم برای سازگاری با چالش‌های جدید. یکی از بدترین آتش‌سوزی‌ها، آتش‌سوزی‌های جنگلی است که امروزه صدها هزار نفر را تحت تأثیر قرار می‌دهد و در تعداد و مقیاس آن در حال افزایش است.

امروز، خوشحالم که به اشتراک بگذارم که استفاده از تصاویر ماهواره‌ای را برای آموزش مدل‌های هوش مصنوعی برای شناسایی و ردیابی آتش‌سوزی‌های جنگلی در زمان واقعی، ارتقا داده‌ایم و به پیش‌بینی چگونگی تکامل و گسترش آنها کمک می‌کنیم. ما این سیستم ردیابی آتش‌سوزی را در ایالات متحده، کانادا، مکزیک راه‌اندازی کرده‌ایم و در بخش‌هایی از استرالیا در حال گسترش است، و از ژوئیه بیش از 30 رویداد بزرگ آتش‌سوزی در ایالات متحده و کانادا را پوشش داده‌ایم و به اطلاع کاربران و اطفای حریق کمک می‌کنیم. تیم هایی با بیش از 7 میلیون بازدید در جستجوی گوگل و نقشه ها.

هشدار آتش سوزی در تلفن

ما همچنین از هوش مصنوعی برای پیش بینی سیل استفاده می کنیم، یکی دیگر از الگوهای شدید آب و هوایی که با تغییرات آب و هوایی تشدید می شود. ما قبلاً به جوامع کمک کرده‌ایم تا زمان وقوع سیل و عمق آب را پیش‌بینی کنند – در سال 2021، 115 میلیون اعلان هشدار سیل را برای 23 میلیون نفر از طریق جستجوی Google و Maps ارسال کردیم که به نجات جان‌های بی‌شماری کمک کرد. امروز به اشتراک می گذاریم که اکنون در حال گسترش پوشش خود به کشورهای بیشتری در آمریکای جنوبی (برزیل و کلمبیا)، کشورهای جنوب صحرای آفریقا (بورکینافاسو، کامرون، چاد، جمهوری دموکراتیک کنگو، ساحل عاج، غنا، گینه، مالاوی، نیجریه، سیرالئون، آنگولا، سودان جنوبی، نامیبیا، لیبریا و آفریقای جنوبی و جنوب آسیا (سری‌لانکا). ما از یک تکنیک هوش مصنوعی به نام یادگیری انتقال استفاده کرده‌ایم تا بتوانیم آن را در مناطقی که داده‌های کمتری در دسترس است، کار کنیم. ما همچنین راه اندازی جهانی Google FloodHub را اعلام می کنیم، یک پلت فرم جدید که زمان و مکان وقوع سیل را نشان می دهد. همچنین در آینده این اطلاعات را به جستجوی Google و Maps خواهیم آورد تا به افراد بیشتری کمک کنیم در شرایط سیل به ایمنی برسند.

هشدار سیل در تلفن

در نهایت، هوش مصنوعی به دسترسی بیشتر به مراقبت های بهداشتی در مناطقی که منابع کمتری دارند کمک می کند. به عنوان مثال، ما در حال تحقیق در مورد روش‌هایی هستیم که هوش مصنوعی می‌تواند به خواندن و تجزیه و تحلیل خروجی‌های دستگاه‌های سونوگرافی کم‌هزینه کمک کند، و به والدین اطلاعاتی را که برای شناسایی مشکلات اولیه در بارداری نیاز دارند، می‌دهد. ما همچنین قصد داریم به همکاری با مراقبان و آژانس های بهداشت عمومی ادامه دهیم تا دسترسی به غربالگری رتینوپاتی دیابتی را از طریق ابزار ارزیابی خودکار بیماری شبکیه (ARDA) گسترش دهیم. از طریق ARDA، ما بیش از 150000 بیمار را در کشورهایی مانند هند، تایلند، آلمان، ایالات متحده و بریتانیا در سراسر استفاده مستقر و مطالعات آینده نگر با موفقیت غربالگری کردیم – بیش از نیمی از این بیماران تنها در سال 2022. علاوه بر این، ما در حال بررسی این موضوع هستیم که چگونه هوش مصنوعی به تلفن شما کمک می کند تا ضربان تنفس و ضربان قلب را تشخیص دهد. این کار بخشی از دیدگاه گسترده‌تر Google Health است که شامل دسترسی بیشتر به مراقبت‌های بهداشتی برای هر کسی که گوشی هوشمند دارد، می‌شود.

هوش مصنوعی در سال های آینده

پیشرفت‌های ما در معماری شبکه‌های عصبی، الگوریتم‌های یادگیری ماشین و رویکردهای جدید سخت‌افزار برای یادگیری ماشین به هوش مصنوعی کمک کرده است تا مشکلات مهم دنیای واقعی را برای میلیاردها نفر حل کند. خیلی بیشتر در راه است. آنچه امروز به اشتراک می‌گذاریم، چشم‌انداز امیدوارکننده‌ای برای آینده است – هوش مصنوعی به ما اجازه می‌دهد دوباره تصور کنیم که فناوری چگونه می‌تواند مفید باشد. امیدواریم با بررسی این قابلیت‌های جدید و استفاده از این فناوری برای بهبود زندگی مردم در سراسر جهان، به ما بپیوندید.