Чтение данных из текстового файла

R может читать данные, сохраненные в текстовом (ASCII) файле. Для этого используются три функции: read.table() (которая имеет два варианта: read.csv() и read.csv2()), scan() и read.fwf().

Например, если мы имеем файл data.dat, то для того чтобы его прочитать можно набрать:

> mydata <-read.table ("data.dat")

mydata тогда будет объектом вида data.frame, и каждая переменная будет называться, по умолчанию, V1, V2... и к ним можно обратиться индивидуально mydata$V1, mydata$V2..., или mydata["V1"], mydata["V2"]..., или mydata[,1], mydata[,2], …

Однако, есть различия: mydata$V1 и mydata[,1] – векторы, тогда как mydata["V1"] - data.frame.

У функции read.table() есть несколько параметров:

read.table(файл, header=FALSE, sep = "", quote = "\"’", dec = ".", row.names =, col.names =, as.is=FALSE, na.strings = "NA", skip=0, fill = ! blank.lines.skip, check.names=TRUE, strip.white=FALSE, blank.lines.skip = TRUE)

Параметры:

файл	название файла пишется (в кавычках " "), можно использоваться путь (символ \ не допустим, и должен быть заменен на /).
header	логический (ЛОЖЬ или ИСТИНА) указывает, содержит ли файл названия переменных в начале строки.
sep	разделитель полей используемый в файле, например sep = "\t", если это - табуляция.
quote	символы, используемые для обозначения переменных символьного типа.
dec	символ, используемый для отделения дробной части числа.
row.names	вектор с названиями строк, которые могут быть векторами символьного типа, или числового (или название) переменной файла (по умолчанию: 1, 2, 3...).
col.names	вектор с названиями колонок (по умолчанию: V1, V2, V3...).
as.is	указывает преобразовать символьных значения в факторы (если ЛОЖЬ) или сохраняет их как символы (ИСТИНА).
na.strings	показывает какое значение строки считать отсутствием данным (по умолчанию - NA). Пустое значение в числовой колонке тоже считается отсутствием данных.
skip	число строк, которые будут пропущены перед чтением данных
fill = TRUE	если в файле все поля заполнены.
check.names	если ИСТИНА, то проверяется, допустимость имен переменных для R
strip.white	(условное выражение к sep ), если ИСТИНА, то удаляются дополнительные пробелы до и после символьных переменных
blank.lines.skip	Если имеет значение TRUE то пустые строки в файле игнорируются по умолчанию параметр имеет значение TRUE Мы можем изменить значение на FALSE, которое используется совместно с параметром fill = TRUE

Для ввода из файлов имеющих определенный формат используются команды read.csv и read.csv2 которые имеют следующие значения по умолчанию:

read.csv (файл, header = ИСТИНА, sep =,"", quote = " \ "", dec = ". "...)

read.csv2 (файл, header = ИСТИНА, sep = ";", quote = " \ "", dec = ", "...)

Функция scan() более гибкая, чем read.table() и имеет больше параметров. Главное отличие в том, что, при вводе можно указать тип переменных, например:

> mydata <-scan("data.dat", what=list (" ", 0,0))

в файле data.dat три переменные, первая имеет символьный тип и следующие две - числовой тип.

Формат scan()следующий:

> scan (file = "", what=double(0), nmax=-1, n=-1, sep="", quote=if(sep == "\n") " " else " ’ \ "", dec = ". ", skip=0, nlines=0, na.strings = "NA", flush=FALSE, strip.white=FALSE, quiet=FALSE)

Параметры:

file	название файла пишется (в кавычках " "), можно использоваться путь (символ \ не допустим, и должен быть заменен на /), если file = " ", то данные вводят с клавиатуры .
what	определяет типы данных
nmax	количество читаемых данных, или, если what описывает список, количество читаемых строк (по умолчанию, scan читает данные до конца файла)
n	количество читаемых данных, (по умолчанию все)
sep	разделитель полей используемый в файле
quote	символы, используемые для обозначения переменных символьного типа
dec	символ, используемый для отделения дробной части числа.
skip	число строк, которые будут пропущены перед чтением данных
nlines	количество читаемых строк
na.strings	присваивает значения, отсутствующим данным (показывает как NA)
flush	логический, если TRUE, то scan переходит на следующую строку, как только достигнет последнего столбца
strip.white	(условное выражение к sep ), если TRUE, то удаляются дополнительные пробелы до и после символьных переменных
quiet	логический, если FALSE, scan отображает строку, показывающую, какие поля были прочитаны

Функция read.fwf() используется, для чтения данных имеющих определенный фиксированный формат:

read.fwf (файл, widths, sep = "\t ", as is=FALSE, skip=0, row.names, col.names)

Например, если файл data.txt имеет следующий вид:

A1
A1
B1
B1
C1
C1

То его можно прочитать следующим образом:

> mydata <-read.fwf("data.txt", widths=c(1,4,3))

> mydata

V1 V2 V3

1 А 1.50 1.2

2 А 1.55 1.3

3 B 1.60 1.4

4 B 1.65 1.5

5 C 1.70 1.6

6 C 1.75 1.7