Přejít na Stručný návod k prostředí R

Představení výpočetního prostředí R

Systém R je poměrně univerzálním softwarovým nástrojem a prostředím pro zpracování dat a jejich analýzu, výpočty a tvorbu grafických výstupů. Základem je interpretovaný programovací jazyk s podporou větvení, iterací a modulárního programování pomocí funkcí, jehož návrh vychází z návrhů jazyka S Chamberse a Wilkse a jazyka Scheme a který dává uživateli možnost efektivně definovat funkce pro řešení specifických potřeb. Pro účely zvýšení efektivity výpočtů je navíc možné z prostředí R přistupovat k procedurám vytvořeným v jazycích C, C++ nebo Fortran. Systém R dále obsahuje běhové prostředí a nástroj pro ladění programů a umožňuje spouštět skripty uložené v souborech.

Předdefinované funkce pokrývají mnoho statistických postupů například pro lineární modely, zobecněné lineární modely, nelineární regresi, analýzu časových řad, parametrické a neparametrické testy nebo shlukovou analýzu a k dispozici je rovněž řada doplňkových balíčků zaměřených na některé oblasti analýzy dat. Pro prostředí R existuje podpora importu a exportu datových souborů ve formátech rozšířených statistických a databázových programů.

Za pozornost stojí, že R je software distribuovaný za podmínek licence GNU GPL (GNU General Public License Version 2, June 1991. The Free Software Foundation, Inc. URL http://www.gnu.org/copyleft/gpl.html), což může představovat výraznou výhodu proti běžně dostupným komerčním softwarovým nástrojům pro analýzu dat a statistické výpočty, zejména vzhledem k možnostem modifikace programu a jeho další distribuce a dostupnosti zdrojového kódu. Open source software umožňuje uživateli díky zpřístupnění zdrojového kódu úplnou kontrolu nad postupy použitými při výpočtech (lze-li například zdrojový kód v programovacím jazyce C považovat za dostatečně dobře srozumitelný). Dobrý přehled o použitých algoritmech a detailech jejich implementace je často obtížné získat při využití mnohých komerčních softwarových nástrojů, které, někdy z pochopitelných důvodů, nebývají vždy dostatečně důkladně popsány v dokumentaci dostupné uživatelům.

Software R má v současnosti již velký počet uživatelů, což je dobrým předpokladem pro úspěšný další rozvoj tohoto softwaru z hlediska dostatečné základny pro generování požadavků na opravy chyb v programu a podobně doplňování funkcionality. Také to znamená výhodu díky možnosti snadno získat při vývoji vlastních řešení podporu od ostatních uživatelů tohoto softwaru. Využít dostupných zkušeností široké uživatelské základny je možné například prostřednictvím uživatelských fór (r-help nebo r-dev).

K využívání prostředí R je potřebná alespoň základní technická vybavenost uživatele - požadavek je třeba vyjádřit syntakticky správně v jazyce R, standardní distribuce výpočetního prostředí R totiž prozatím nezahrnuje grafické uživatelské rozhraní podobné takovým, která jsou obvykle součástí běžně rozšířených komerčních softwarových nástrojů. Naštěstí není náročné osvojit si syntaktická pravidla jazyka R na úrovni umožňující bezchybné zadávání standardních požadavků na výpočty.

O úspěšnosti konceptu softwaru R vypovídá i skutečnost, že současné nejrozšířenějších komerčních statistických softwarových paketů již má integrovanou podporu pro využití prostředí R tak, že z daného paketu je možné volat funkce, pomocí kterých se kompletní výpočet provede v prostředí R a následně si daný paket může převzít výstup.

Prostředí R zatím, vzhledem k některým vlastnostem jazyka R, není příliš vhodné pro řešení náročných úloh nad rozsáhlými datovými soubory (typické data mining úlohy) a při úvahách o dalším rozvoji prostředí R se v této souvislosti hovoří o využití některé z implementací jazyka lisp pro výrazné zvýšení efektivnosti výpočtu.

data.tulipany.cz