Základem tohoto článku je sylabus, ktarý jsem si vyrobil pro svůj workshop Jak dělat SEO lépe a rychleji v jazyce R. Jenže jsem měl jsem velké oči. Za jediný den, který jsem měl k dispozici, ho nešlo probrat ani náhodou. Takže jsem ho trochu rozpracoval, doplnil odkazy na zdroje a předkládám vám ho jako orientační mapu pro samostudium.
Snažil jsem se témata řadit podle priority a zároveň obtížnosti. Myslím, že vám pomůže, když pořadí dodržíte, ale postupujte samozřejmě podle svých výchozích znalostí a svého uvážení.
Do studia vám držím palce!
Základy R
Naučte se základní datové typy: čísla, znakové řetězce, logické hodnoty. Zvykněte si na to, že to jsou vektory a naučte se s nimi pracovat. Nechoďte zbytečně do hloubky. Pro začátek vám stačí, když pochopíte a v případě potřeby i napíšete třeba tyto příklady kódu:
<- (5 * 4) / 2
vysledek_vypoctu <- paste("první řetězec", "druhý řetězec", sep = ",")
spojene_retezce <- c(1, 2, 3, 6, 5, 4) * 10
vynasobeny_vektor <- vynasobeny_vektor[2]
druhy_prvek_vektoru <- c(1, 2, 3) * c(1, 2, 3)
vynasobene_vektor <- runif(n = 40, min = 1, max = 10) |>
zaokrouhlena_nahodna_cisla round(digits = 1)
K základním datovým typům přidejte ještě data.frame a případně list. Zase stačí jen málo:
<- data.frame(
df cislo = 1:3,
text = c("první", "druhý", "třetí")
)<- df[1, 2]
prvni_text <- df$text vsechny_texty
Nezpomeňte, že kdykoli můžete R požádat o nápovědu – např. ?sum
nebo klávesou F1 s kurzorem na funkci.
Základy RStudia a Quarta
Prakticky všechno budete dělat v RStudiu. Nainstalujte si ho, udržujte ho aktuální, naučte se s ním dobře zacházet.
Erkový kód pište prakticky výhradně do Quarto dokumentů. Skripty zatím nebudete potřebovat, starší R Markdown nebo R Notebook ignorujte. Studujte postupně z:
Pro začátek to nepřehánějte, jde jen o to, abyste měli kde interaktivně pracovat a viděli současně kód i jeho výsledek. Reporty a další výstupy z Quarta se naučíte později.
Tidyverse
Pro práci s daty používejte zásadně balíčky z ekosystému Tidyverse. Konkrétně se naučte a na praktických příkladech si vyzkoušejte následující funkce.
Vytváření data framů
Import a export dat
read_csv
etc. na import textových souborůwrite_csv
etc. na export do textových souborread_excel
etc. na import z Exceluwrite_rds
aread_rds
, pokud si chcete sami něco uložit v erkovém interním formátu- pokud potřebujete, balíček googlesheets4 na čtení z a zápis do Tabulek Google
Manipulace s daty
- Naučte se a hlavně si vyzkoušejte všechno, co najdete v taháku k balíčku dplyr.
- Nakoukněte i do taháku k balíčku tidyr. Ten se neučte, jen si přibližně zapamatujte, co umí. Až to budete potřebovat, vygooglíte si to.
Grafy balíčkem ggplot2
Neztrácejte čas funkcí plot
ze základního R. Na vizualizace používejte jen balíček gglot2. Naučte se a hlavně si vyzkoušejte všechno, co najdete v jeho taháku.
Příručka od Excelu k R
Výše uvedená témata tak akorát pokrývá moje příručka Od Excelu k R. Projděte si ji a rovnou z ní všechno zkoušejte, ušetříte tím dost času. Jen pozor: teď už použijte Quarto Document namísto R Notebook.
Digitální marketing
Ze specialit digitálního marketingu doporučuju začít těmito tématy:
- Analýza dat Search Console – použijete balíček searchConsoleR v kombinaci s balíčky tidyr, dplyr a ggplot2.
- Na Google Analytics použijete balíček googleAnalyticsR.
- Dále doporučuju (polo)automatizovat reportování ze Screaming Frogu. Stačí načíst jeho CSV exporty (balíček readr), zpracovat (balíček dplyr), vizualizovat (balíček ggplot2) a reportovat v Quarto.
- Pokud děláte SEO a analýzy klíčových slov, naučte se můj balíček keywordr.
Reporting
Jestli máte klienty a/nebo šéfy, naučte se hodně dobře Quarto a generování reportů, případně i prezentací. Ušetří vám to mraky času.
Stahování informací z webu
- Občas se hodí stáhnout něco z webu. Na to je perfektní balíček rvest.
- Jestli chcete cucat data z různých API, zkuste balíček httr. Tím jde taky ověřovat stavové kódy HTTP.
- Na import XML sitemap se kromě balíčku httr hodí i balíček xml2.
A to je vlastně všechno. Leda byste byli stejně velcí blázni jako já a pustili se i do Shiny :-)