استفاده از R برای افرادی که از R استفاده نمی کنند 🥖 تصادفی جان مولر

می‌خواستم یک پست کوتاه در مورد نحوه انجام کاری با Search Console API با R انجام دهم. با کمی پشتیبان‌گیری، فکر کردم خلاصه‌ای از نحوه شروع کار با R را درج کنم، و همانطور که شما انجام می‌دهید، من هم اکنون یک پست جداگانه در مورد نحوه انجام آن بنویسید. نه، من بیشتر از آن نسخه پشتیبان تهیه نمی‌کنم و رایانه‌ها یا نحوه اتصال چاپگر را توضیح نمی‌دهم.

برپایی

برای سفر امروز ما از زبان برنامه نویسی “R” استفاده خواهیم کرد. چرا به آن “R” می گویند؟ چه اتفاقی برای همه زبان های بین “C” و “R” افتاد؟ در حال حرکت اما چرا R؟ شما می توانید همین کارها را با پایتون یا بیشتر زبان های برنامه نویسی انجام دهید، اما پایتون برای هیپسترها و R برای دانشمندان داده واقعی است.

امروز، ما یک دانشمند داده، یا یک دزد دریایی (arrrrr!)، یا حتی یک دانشمند داده دزدان دریایی خواهیم بود.

دانشمندان داده دزدان دریایی باحال ترین هستند. کار خوبی برای پیدا کردن این پست و پیوستن به باشگاه. شما می توانید برنامه نویسی R را به رزومه/رزومه خود اضافه کنید – این زبان آنقدر عجیب و غریب است که هیچ کس از شما نمی خواهد در یک مصاحبه شغلی کاری انجام دهید. و در زندگی واقعی، شما فقط به دنبال نمونه‌های کد می‌گردید تا به هر حال کپی و جای‌گذاری کنید. به من اعتماد کن. من همه اینها را بدون اینکه واقعاً بفهمم دارم چه کار می‌کنم به کار انداختم.

به هر حال، R برای اکثر کامپیوترها در دسترس است. یک IDE ساده به نام RStudio وجود دارد که من برای R استفاده می کنم. نسخه دسکتاپ منبع باز رایگان است. شما حتی نیازی به ویرایشگر ندارید. آن را نصب کنید و ادامه دهیم. ممکن است از شما خواسته شود که “R” را نیز نصب کنید – دستورالعمل های مربوط به آن را دنبال کنید. “R” زبان برنامه نویسی است، “RStudio” یک راه آسان برای کار در “R” است.

با استفاده از RStudio

بدیهی است که باید مستندات 291 صفحه ای را مطالعه کنید. کسی باید (من نکردم، شاید 291 صفحه هم نباشد). این فقط راه میانبر من است. حتی ممکن است راه میانبر خوبی نباشد، زیرا واضح است که من هیچ مرجعی در مورد R ندارم. هر چند گاهی اوقات مثل یک دزد دریایی غذا می خورم.

RStudio چند ویژگی دارد که می توانید به آنها عادت کنید. پنجره اصلی در ابتدا به این صورت خواهد بود:

نمای اصلی RStudio

(معلوم است که بسیاری از این گرافیک ها وقتی منتشر می کنم تغییر اندازه می دهند، بنابراین کمی وحشتناک به نظر می رسند. اوه. اما حداقل سریع است.)

تنظیم یک فهرست کاری

تنها مورد معقول اینجا کاوشگر فایل در پایین سمت راست خواهد بود. اولین کار شما انتخاب یا ساخت یک فهرست کارآمد خواهد بود. به پوشه سمت راست رایانه خود بروید، در صورت نیاز از دکمه “پوشه جدید” برای ایجاد دایرکتوری استفاده کنید.

اکنون برای جادو: روی “بیشتر” و “تنظیم به عنوان فهرست کاری” کلیک کنید.

اگر این کار را انجام ندهید، تمام فایل‌هایی که می‌خوانید و می‌نویسید به جای دیگری ختم می‌شوند. این فوق العاده آزاردهنده است، رایانه ها با جزئیاتی مانند این می توانند چنین تند و تیز باشند. همیشه به یاد داشته باشید که ابتدا پوشه کاری را تنظیم کنید، حتی اگر در حال حاضر آن دایرکتوری را نشان می دهد.

یک فایل R جدید ایجاد کنید

حالا قسمت برنامه نویسی. در منوی اصلی خود (در مک، در نوار عنوان)، File / New File / R Script را انتخاب کنید.

با این کار یک ربع دیگر در پنجره RStudio شما برای اسکریپت R باز می شود. این همان چیزی است که در RStudio بیشتر به نظر می رسد.

اولین برنامه R شما

من کی هستم که بگویم اولین برنامه R شما باید چه کار کند؟ من به گوگل مراجعه کردم و ظاهرا سایت های دیگر دوست دارند لیستی از اعداد تصادفی ایجاد کنند و توزیع آنها را ترسیم کنند. با در نظر گرفتن این موضوع، در اینجا چیزی است که می توانید امتحان کنید. کد زیر را در ربع بالا سمت چپ کپی کنید.

n  floor(rnorm(1000, 100, 10))
t  table(n)
barplot

اکنون روی “ذخیره” کلیک کنید (نماد دیسکت – چه کسی می داند دیسک های امروزی چیست، wth)، یک نام فایل مانند “تست” به آن بدهید. و حالا باید چیزی شبیه به این داشته باشید:

برای کسانی که به زبان های برنامه نویسی استفاده می کنند، با استفاده از ” مقادیری را اختصاص می دهید

شما واقعاً نیازی به درک کد در اینجا ندارید، اما بسیار تقریبی:

rnorm() لیستی از 1000 عدد توزیع شده تصادفی با میانگین حدود 100 با انحراف 10 ایجاد می کند (بنابراین بیشتر اعداد 70-130، ریاضی نیز عجیب است). floor() آنها را به اعداد صحیح تبدیل می کند. از نظر ریاضی مجموعه ای از اعداد در توزیع نرمال با میانگین 100 و انحراف معیار 10 است. اینها اکنون به متغیر “n” اختصاص داده می شوند.

table() رخدادهای جداگانه هر عدد را می شمارد و آنها را در متغیر “t” قرار می دهد.

() barplot فقط آن را به عنوان یک نمودار نشان می دهد.

اسکریپت R خود را اجرا کنید

واضح است، شما فقط دکمه “run” یا “play” را فشار می دهید، و این کار می رود، درست است؟ نه. به یاد داشته باشید، R برای دانشمندان است، بنابراین باید به جای آن روی دکمه “منبع” کلیک کنید. هیچ کس نمی داند چگونه این اتفاق افتاد، فقط همینطور است.

نتیجه

اگر همه چیز خوب پیش برود، رابط کاربری RStudio شما اکنون باید به شکل زیر باشد:

در اینجا می توانید به چند نکته توجه کنید:

  • ربع کنسول (پایین سمت چپ) دستور “source()” را ذکر می کند. شما می توانید هر دستور R را در اینجا وارد کنید و پردازش می شود. این برای زمانی مفید است که نمی دانید چه کاری انجام می دهید، و باید چیزهایی را امتحان کنید.
  • اکنون ربع فایل یک نمودار را نشان می دهد. چه لعنتی، ها؟ خیلی باحال. اما همچنین، چرا.
  • ربع بالا سمت راست متغیرهای شما را نشان می دهد. این برای فهمیدن چیزها تا حدی مفید است.

اگر اسکریپت را چند بار اجرا کنید (دکمه “منبع” را به خاطر بسپارید – ما در اینجا دانشمند داده هستیم)، مجموعه جدیدی از اعداد تصادفی ایجاد می کند و نمودارهای جدیدی تولید می کند. آن را امتحان کنید. کلیک کردن روی چیزها جالب است، اما همچنین برای نشان دادن نحوه برخورد با این نمودارها به آنها نیاز داریم.

هنگامی که چندین نمودار دارید، می توانید با استفاده از فلش ها بین نمودارها (“نقشه” در data-scientist-eze) جابجا شوید:

در همان مکان، می‌توانید این نمودارها را صادر کنید تا به‌عنوان فایل ذخیره شوند، یا اگر در حال نوشتن گزارش هستید، آن‌ها را در کلیپ‌بورد خود کپی کنید.

(من این مجموعه اعداد تصادفی را خیلی دوست دارم. Arrrr.)

استفاده از بسته ها

نصب پیش فرض R همه چیزهای جالب را ندارد. اگر به طور منظم از Stack Overflow برای کپی و جای‌گذاری کد استفاده می‌کنید، منظور من برای یادگیری است، اشاره‌ای به «بسته‌ها» یا «کتابخانه‌ها» خواهید دید. نصب اینها اغلب بدون درد است. با این حال، شما نیاز به اتصال به اینترنت دارید (به هر حال امروزه این طور فرض می شود، اینطور نیست که ما یک دزد دریایی در یک قایق در اقیانوس باشیم، اوه صبر کنید).

برای R، همیشه دو مرحله وجود دارد: نصب بسته، و سپس استفاده از کتابخانه. چرا اسمش را یکسان نمی گذارند، نمی دانم. بدیهی است که دروازه‌بانی توسط دانشمندان داده.

بیایید یکی را امتحان کنیم.

مرحله 1: بسته را نصب کنید.

در ربع کنسول (پایین سمت چپ)، موارد زیر را کپی کرده و اینتر را بزنید:

install.packages("ggplot2")

اکنون کتابخانه ggplot2 نصب می شود. این کتابخانه به ساختن گرافیک های زیبا کمک می کند. اگر کنجکاو هستید، مجموعه بزرگی از گرافیک های R وجود دارد که می توانید از آنها برای کپی و جایگذاری در کد خود استفاده کنید، بسیاری از آنها از ggplot2 استفاده می کنند.

کنسول شما اکنون باید چیزی شبیه به این را نشان دهد (محتوای دقیق متفاوت خواهد بود):

مرحله 2: کتابخانه را در کد خود بارگیری کنید.

بیایید یک اسکریپت جدید (منو: File / New File / R Script) شروع کنیم و از کد زیر استفاده کنیم:

library(ggplot2)

ggplot(mpg, aes(displ, hwy, colour = class)) + 
     geom_point()

خط اول (library(…)) کتابخانه ggplot2 را بارگیری می کند. شما فقط باید یک بار آن را نصب کنید، در اسکریپت های بعدی می توانید آن را به همین شکل بارگذاری کنید. RStudio سعی می کند بفهمد که به کدام کتابخانه ها نیز نیاز دارد و به شما کمک می کند نصب آنها را به خاطر بسپارید. اگر آنها را نصب نکنید، اسکریپت کار نخواهد کرد.

دو خط بعدی از ggplot() برای ایجاد یک نمودار (plot) استفاده می کنند. ggplot() مجموعه داده (“mpg”)، آیتم های موجود در آنجا را که می خواهید با aes() نمودار کنید، می گیرد و سپس نوع گرافیکی (“geom_point()”) را که می خواهید انجام دهید اضافه می کند. ggplot() این کارهای عجیب و غریب را فقط با اضافه کردن چیزهایی با “+” انجام می دهد تا آنها را ترکیب کند.

ممکن است تعجب کنید که داده‌های استفاده شده در گرافیک از کجا می‌آیند – چگونه ناگهان داده‌های MPG و انواع خودرو را دریافت کردیم؟ R شامل تعدادی منبع داده کوچک است که می توانید از آنها برای امتحان کردن چیزها استفاده کنید. قبل از اینکه از داده های واقعی خود استفاده کنید، کار با گرافیک های ساده را کمی آسان تر می کند. در این مورد، برخی اطلاعات قدیمی‌تر سازنده خودرو است: «داده‌های mpg» به عنوان بخشی از «مجموعه داده‌های mtcars». اگر آمار و گرافیک های تصادفی مربوط به خودرو را در R مشاهده کنید، اکنون می دانید چرا.

یادداشت جانبی در مورد dyplr

یکی دیگر از تنظیمات عجیب “dyplr” است، که ممکن است با R مواجه شوید. من در این پست به آن نمی پردازم، این فقط FYI است. این اساساً راهی برای مسیریابی خروجی از یک قسمت به قسمت دیگر کد با استفاده از “%>%” است، با هدف آسان کردن نوشتن آن (و فکر می‌کنم درک آن برای انسان‌ها سخت باشد). در R، چیزی شبیه به این خواهد بود:

firstthing() %>% secondthing()

“dyplr” یک کتابخانه جداگانه است، بنابراین شما آن را به همان روشی که قبلا ذکر شد نصب می کنید، و غیره. احتمالاً می توانید با عدم استفاده از آن کنار بیایید، اما وقتی نحوه عملکرد آن را دیدید، آنقدرها هم عجیب نیست … خوب، هنوز هم عجیب است

بیشترش همینه

در این مرحله، باید برای انجام کارها در RStudio آماده باشید. به یاد داشته باشید، R عجیب است، و نام چیزها در ابتدا کمی گیج کننده است، بنابراین هر زمان که گیر کردید از موتور جستجوی مورد علاقه خود استفاده کنید. با این وجود، امیدوارم این به شما کمک کند تا شروع کنید.

توضیحات جانبی

نظرات تصادفی …

  • همچنین می‌توانید از تخصیص متغیرهای معمولی “varname = function()” در R استفاده کنید. اگرچه این خیلی عادی به نظر می‌رسد، بنابراین توصیه نمی‌شود. از “varname
  • وقتی به یاد آوردم چیزهای بیشتری را اینجا اضافه می کنم.

نظرات / سوالات

در حال حاضر هیچ قابلیت نظر دادن در اینجا وجود ندارد. اگر می‌خواهید نظر بدهید، لطفاً از Mastodon استفاده کنید و من را (@[email protected]) در آنجا ذکر کنید. با تشکر!

Source link