ФАЙЛЫ И ФАЙЛОВАЯ СТРУКТУРА

Единицы представления данных

Наименьшей единицей представления является бит (двоичный разряд). Совокупность двоичных разрядов, выражающих числовые или иные данные, образует некий битовый рисунок. В настоящее время в качестве таких форм используются группы из восьми битов, которые называются байтами.

Во многих случаях целесообразно использовать не восьмиразрядное кодирование, а 16-разрядное, 24-разрядное, 32-разрядное и более. Группа из 16 взаимосвязанных бит (двух взаимосвязанных байтов) в информатике называется словом. Соответственно, группы из четырех взаимосвязанных байтов (32 разряда) называются удвоенным словом, а группы из восьми байтов (64 разряда) —учетверенным словом.

Единицы измерения данных

Наименьшей единицей измерения является байт. Более крупная единица измерения — килобайт (Кбайт). Условно можно считать, что 1 Кбайт примерно равен 1000 байт. Условность связана с тем, что более удобно представление чисел в виде степени двойки и потому на самом деле 1 Кбайт равен 1024 байт. Однако всюду, где это не принципиально, с инженерной погрешностью (до 3 %) «забывают» о «лишних» байтах.

Более крупные единицы измерения данных образуются добавлением префиксов мега-, гига- тера~; в более крупных единицах пока нет практической надобности.

1 Мбайт - 1024 Кбайт = 1020 байт

1 Гбайт = 1024 Мбайт = 1030 байт

1 'Гбайт = 1024 Гбайт =1040 байт

Вычисление информационного объема сообщения

Единицы измерения информации

В 1 бит можно записать один двоичный символ

1 байт = 8 бит

В кодировке ASCII в один байт можно записать один 256 символьный код

В кодировке UNICODE один 256 символьный код занимает в памяти два байта

ФОРМУЛА ХАРТЛИ

2 i = N,

где i- количество информации в битах, N - неопределенность

Таблица степеней двойки, которая показывает сколько информации можно закодировать с помощью i – бит.

i
2 i = N

Чтобы вычислить информационный объем сообщения надо количество символов умножить на число бит, которое требуется для хранения одного символа

Например:

двоичный текст 01010111 занимает в памяти 8 бит

Этот же текст в кодировке ASCII занимает 8 байт или 64 бита

Этот же текст в кодировке UNICODE занимает 16 байт или 128 бит.

Пробелы надо тоже считать за символы поскольку они также набираются на клавиатуре и хранятся в памяти.

Мощность алфавита - это количество символов в алфавите или неопределенность из формулы Хартли

Информационный вес одного символа - это значение i из формулы Хартли

Чтобы перевести биты в байты надо число бит поделить на 8.

Например: 32 бита - это 4 байта

Чтобы перевести байты в килобайты надо число байтов поделить на 1024

Например: в 2048 байтах будет 2 килобайта

Чтобы перевести байты в биты надо число байт умножить на 8

Например: в 3 байтах будет 24 бита

Чтобы перевести килобайты в байты надо число килобайт умножить на 1024

Например: в 3 килобайтах будет 3072 байта и соответственно 24576 бит. И так далее

Если 128 символьным алфавитом записано сообщение из 5 символов, то объем сообщения - 35 бит.

Мощность алфавита - 128. Это неопределенность. Значит один символ занимает в памяти 7 бит, тогда 5 символов занимают в памяти 35 бит.

Количество символов в тексте =

Информационный вес всего текста : Информационный вес одного символа

Задача. Информационный объем текста, набранного на компьютере с использованием кодировки UNICODE (каждый символ кодируется 16 битами), — 2 Кб. Определить количество символов в тексте.

Решение. Чтобы определить количество символов в тексте, надо знать информационный объем всего текста и информационный вес одного символа.

Однако прежде, чем выполнять деление, необходимо привести величины к одинаковым единицам измерения.

2 Кб= 2 х 1024 = 2048 байт - весь объем информации.

Каждый символ кодируется 16 битами или 2 байтами. Отсюда 2048 : 2 = 1024 символа в тексте.

Единицы хранения данных

В качестве единицы хранения данных принят объект переменной длины, называемый файлом. Файл — это последовательность произвольного числа байтов, обладающая уникальным собственным именем. Обычно в отдельном файле хранят данные, относящиеся к одному типу. В этом случае тип данных определяет тип файла.

В определении файла особое внимание уделяется имени. Оно фактически несет в себе адресные данные, без которых данные, хранящиеся в файле, не станут информацией из-за отсутствия метода доступа к ним.

Хранение файлов организуется в файловой структуре. В качестве вершины структуры служит имя носителя, на котором сохраняются файлы. Далее файлы группируются в каталоги (папки), внутри которых могут быть созданы вложенные каталоги (папки). Путь доступа к файлу начинается с имени устройства и включает все имена каталогов (папок), через которые проходит. В качестве разделителя используется символ «\» (обратная косая черта).

<имя носителя>\<имя каталога-1 >\...\<имя каталога-N>\<собственное имя файла>