Dokumentacja RMySQL jest całkiem dobra — ale zakłada, że znasz podstawy SQL. Są to:
- tworzenie bazy danych
- tworzenie tabeli
- pobieranie danych do tabeli
- pobieranie danych z tabeli
Krok 1 jest prosty:w konsoli MySQL po prostu "utwórz bazę danych DBNAME". Lub z wiersza poleceń użyj mysqladmin , lub często istnieją GUI administratora MySQL.
Krok 2 jest nieco trudniejszy, ponieważ musisz określić pola tabeli i ich typ. Będzie to zależeć od zawartości Twojego pliku CSV (lub innego rozdzielanego). Prosty przykład wyglądałby mniej więcej tak:
use DBNAME;
create table mydata(
id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
height FLOAT(3,2)
);
Co mówi, utwórz tabelę z 2 polami:id , który będzie kluczem podstawowym (więc musi być unikalny) i będzie automatycznie zwiększał się w miarę dodawania nowych rekordów; i wysokość , który tutaj jest określony jako zmiennoprzecinkowy (typ numeryczny), z sumą 3 cyfr i 2 po przecinku (np. 100,27). Ważne jest, aby zrozumieć typy danych .
Krok 3 – istnieją różne sposoby importowania danych do tabeli. Jednym z najłatwiejszych jest użycie mysqlimport pożytek. W powyższym przykładzie, zakładając, że Twoje dane znajdują się w pliku o tej samej nazwie co tabela (mydata), w pierwszej kolumnie znajduje się znak tabulacji, a druga zmienna wysokości (bez wiersza nagłówka), to zadziałałoby:
mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata
Krok 4 - wymaga znajomości obsługi zapytań MySQL. Znowu prosty przykład:
select * from mydata where height > 50;
Oznacza "pobierz wszystkie wiersze (id + wysokość) z tabeli mydata, gdzie wysokość jest większa niż 50".
Po opanowaniu tych podstaw możesz przejść do bardziej złożonych przykładów, takich jak tworzenie 2 lub więcej tabel i uruchamianie zapytań, które łączą dane z każdej z nich.
Następnie - możesz przejść do instrukcji RMySQL. W RMySQL konfigurujesz połączenie z bazą danych, a następnie za pomocą składni zapytania SQL zwracasz wiersze z tabeli jako ramkę danych. Dlatego naprawdę ważne jest, aby uzyskać część dotyczącą SQL — część dotycząca RMySQL jest łatwa.
W sieci jest mnóstwo samouczków MySQL i SQL, w tym „oficjalny” samouczek na stronie MySQL. Wystarczy wyszukać w Google „samouczek mysql”.
Osobiście nie uważam 80 Mb za duży zbiór danych; Jestem zaskoczony, że powoduje to problem z pamięcią RAM i jestem pewien, że natywne funkcje R poradzą sobie z tym dość łatwo. Ale dobrze jest nauczyć się nowych umiejętności, takich jak SQL, nawet jeśli nie potrzebujesz ich do tego problemu.