Analiza danych z programem R
Zrozumieć, Przewidzieć, Sprawdzić, Zobaczyć.
Te cztery słowa opisują cztery podstawowe cele w jakich prowadzi się analizę danych.
- Zrozumieć, to cel analizy eksploracyjnej danych. Za pomocą tabel, wykresów lub modeli poszerzamy naszą wiedzę o zależnościach w danych.
- Przewidzieć, to cel analizy predykcyjnej. Za pomocą modeli (tak zwana metoda białej skrzynki) lub bez użycia modeli (tak zwana metoda czarnej skrzynki) konstruuje się metody szacowania punktowego lub przedziałowego wartości jednej zmiennej na bazie innych zmiennych. Przyszłych wartości (jeżeli jedną ze zmiennych jest czas) lub wartości dla innych obiektów (np. innych pacjentów)
- Sprawdzić, to cel analizy konfirmacyjnej. Za pomocą testów statystycznych weryfikuje się określone hipotezy.
- Zobaczyć, to cel wizualizacji danych. Za pomocą wykresów statystycznych budujemy szeroki, wielopoziomowy opis analizowanego zjawiska.
Omawiając rozmaite metody można by je przypisać do tych czterech zbiorów. Często jedna technika (np. modele liniowe) może być wykorzystana zarówno do eksploracji danych, do predykcji jak i do testowania istotności.