Единицы представления, измерения и хранения данных. пособы представления данных зависят от того, для кого эти данные предназначены: для человека (внешнее представление) или для ЭВМ (внутреннее представление)
С |
пособы представления данных зависят от того, для кого эти данные предназначены: для человека (внешнее представление) или для ЭВМ (внутреннее представление). Во внешнем представлении все данные хранятся в виде файлов. Более высоким уровнем организации данных на внешнем уровне являются базы данных. Для внутреннего представления данных разных типов используется универсальная система двоичного кодирования. Исходя из этого, приняты следующие единицы представления, измерения и хранения данных.
Единицы представления данных. Минимальной единицей представления данных в вычислительной технике считается бит. Более крупной единицей является совокупность из восьми битов, которая называется байтом. Во многих случаях целесообразно не восьмиразрядное кодирование, а 16-разрядное, 24-разрядное, 32-разрядное и более.
Слово – группа из двух взаимосвязанных байтов (16 разрядов).
Удвоенное слово – группа из четырех взаимосвязанных байтов (32 разряда).
Учетверенное слово – группа из восьми взаимосвязанных байтов (64 разряда).
Пока, на сегодняшний день такой системы обозначений достаточно.
Единицы измерения данных. Наименьшей единицей измерения данных принят байт. 1 байт состоит из 8 бит
(23 бит). Более крупные единицы измерения образуются добавлением префиксов кило-, мега-, гига-, тера-.
1 Кбайт = 1024 байт (210 байт=213бит);
1 Мбайт = 1024 Кбайт (220 байт=223бит);
1 Гбайт = 1024 Мбайт (230 байт=233бит);
1 Тбайт = 1024 Гбайт (240 байт=243бит).
В килобайтах измеряются относительно небольшие объемы данных. Условно можно считать, что если на одной странице машинописного текста помещается в среднем 2500 знаков (около 2 Кбайт), то 1 Мбайт – это примерно 400 страниц, а 1 Гбайт – 400 тысяч страниц.
Единицы хранения данных. При хранении данных в компьютере решаются две проблемы: как сохранить данные в наиболее компактном виде и как обеспечить к ним удобный и быстрый доступ. В настоящее время в качестве единицы хранения данных принят файл. Все данные на компьютере записываются в виде файлов или наборов файлов.
Файл — это объект переменной длины, хранящийся на машинном носителе (магнитные или оптические диски) и обладающий уникальным именем. Файл представляет собой последовательность произвольного числа байтов. В отдельном файле хранятся однотипные данные. В определении файла особое внимание уделяется имени, так как в полном имени файла указаны адресные данные (путь), обеспечивающие доступ к файлу, и задан тип данных.
Тесты
№ п/п | Вопрос | Варианты ответов | ||||
Для хранения в оперативной памяти символы преобразуются в … | 1. Числовые коды в двоичной системе счисления. 2. Графические образы. 3. Числовые коды в десятичной системе счисления. 4. Числовые коды в шестнадцатиричной системе счисления. | |||||
Форма, в которой данные хранятся, обрабатываются и передаются, называется ____________ данных. | 1. Кодированием. 2. Накоплением. 3. Представлением. 4. Преобразованием. | |||||
К операциям с данными не относится | 1. Формализация. 2. Локализация. 3. Архивация. 4. Сортировка. 5. Транспортировка. | |||||
Бит — это… | 1. Состояние диода: закрыт или открыт. 2. 8 байт. 3. Запись текста в двоичной системе. 4. Наименьшая возможная единица информации. | |||||
Байт – это… | 1. Закодированное слово. 2. Запись текста в двоичной системе. 3. 2 бита. 4. Наименьшая единица измерения в информатике. 5. Элементарная единица представления данных в двоичном коде. | |||||
В одном байте содержится… | 1. 8 бит. 2. 10 бит. 3. 16 бит. 4. 32 бита. 5. 64 бита. | |||||
Имеется сообщение объемом 223 бит. В мегабайтах объем этого сообщения равен … | 1. 64 2. 8 3. 1 4. 1024 | |||||
1 гигабайт содержит ________ байт. | 1. 220 2. 103 3. 230 4. 1 000 000 | |||||
Выберите вариант, в котором объемы памяти расположены в порядке возрастания | 1. 15 бит, 20 бит, 2 байта, 1 Кбайт, 1010 байт 2. 15 бит, 20 бит, 2 байта, 1010 байт, 1 Кбайт 3. 15 бит, 2 байта, 20 бит, 1010 байт, 1 Кбайт 4. 15 бит, 2 байта, 20 бит, 1 Кбайт, 1010 байт | |||||
Расположите единицы измерения данных в порядке возрастания. А. Гигабайт. Б. Мегабит. В. Мегабайт. Г. Терабайт. | Введите в таблицу выбранные буквы.
| |||||
Скорость передачи данных через ADSL-соединение равна 256000 бит/сек. Передача файла через это соединение по времени заняла 2 мин. Определите размер файла в килобайтах. | 1. 3750 2. 62,5 3. 30000 4. 3840 | |||||
При подключении к Интернету модем обеспечивает скорость передачи данных, равную 28 800 бит/с. Сколько времени потребуется для передачи файла размером 72 000 байт? | 1. 5 с 2. 10 с 3. 20 с 4. 60 с | |||||
Поименованная область внешней памяти произвольной длины с определенным количеством информации – это… | 1. Слово. 2. Файл. 3. Программа. 4. Атрибут. | |||||
Определение «файловой структуры» базируется на таких понятиях, как … | 1. Папки и файлы. 2. Иерархия файлов. 3. Логические устройства и логические диски. 4. Диски и каталоги. | |||||
Минимальной единицей адресуемой памяти в компьютере является... | 1. 1 килобайт. 2. 1 бит. 3. 1 байт. 4. 1 герц. | |||||
1024 килобайта равно ... | 1. 1 гигабайту. 2. 1 мегабайту. 3. 1 мегабиту. 4. 1 мегабоду. | |||||
Файловая система определяет… | 1. Физические особенности носителя. 2. Число пикселей на диске. 3. Способ организации данных на диске. 4. Емкость диска. | |||||
Выделите правильные утверждения. «В иерархической структуре данных…» | 1. Одно дерево может иметь только один корень. 2. Узел может содержать как один, так и несколько атрибутов, описывающих объект в данном узле. 3. Одно дерево может иметь неограниченное количество корней. | |||||
Информационный объем одной точки 256-цветного растрового изображения равен… | 1. 1 биту. 2. 1 байту. 3. 2 битам. 4. 2 байтам. | |||||
Как изменится информационный объем графического файла, если первоначально количество цветов было равно 216, а в результате преобразования установлено 232 цветов? | 1. Увеличится в 2 раза. 2. Уменьшится в 2 раза. 3. Уменьшится в 4 раза. 4. Увеличится в 4 раза. |
Кодирование данных в ЭВМ
В |
информатике используются данные различных типов: числовые, текстовые, графические, звуковая информация. Для автоматизации работы с данными различных типов важно унифицировать форму их представления. Для этого используется кодирование, то есть выражение данных одного типа через данные другого типа. В вычислительной технике принята универсальная система двоичного кодирования, которая основана на представлении данных всех типов двоичным кодом, состоящим из последовательности только двух цифр: 0 и 1. Каждая из этих цифр называется двоичной цифрой, или
по-английски – bit (бит).
Одним битом можно закодировать только два различных понятия (значения): 0 или 1 (да или нет, черное или белое, истина или ложь и т. п.). Если количество бит увеличить до двух, то число различных значений составит 4. Тремя битами можно закодировать 8 различных значений. Таким образом, увеличивая число бит на единицу, мы увеличиваем в два раза количество различных кодируемых значений. Общая формула для двоичной системы счисления (формула Р. Хартли) имеет вид: N=2m, где
N – количество различных кодируемых значений;
m – количество бит, используемых для кодирования.
Кодирование числовых данных. Для кодирования числовых данных используется двоичная система счисления, основанием которой является число 2. Эта система счисления, также как и десятичная, является позиционной. Запись числа в двоичной системе счисления в 3,3 раза длиннее, чем запись числа в десятичной системе счисления. В вычислительной технике для более компактной записи двоичных чисел иногда используют восьмеричную и шестнадцатеричную позиционные системы счисления. В некоторых случаях используется двоично-десятичное кодирование, при котором каждая десятичная цифра записывается своим двоичным кодом.
Числа в компьютере представляются в одной из двух форм: естественной и экспоненциальной (нормализованной).
Естественная форма (с фиксированной точкой) применяется для записи целых двоичных чисел. Для хранения целых неотрицательных чисел в памяти компьютера отводится минимум
1 байт. Максимальное значение целого неотрицательного числа, когда во всех разрядах хранятся единицы, равно 28–1=255. Для хранения целых чисел со знаком выделяются 2 байта (слово) или 4 байта (удвоенное слово). Точка фиксируется после младшего разряда, т.е. вне разрядной сетки. Старший разряд является знаковым. Он содержит значение 0, если число положительное, или 1 для отрицательного числа. Максимальное значение n-разрядного целого положительного числа со знаком равно 2n-1–1. Положительные числа записываются в компьютере прямым кодом, то есть обычной двоичной записью со знаком «+». Для представления отрицательных чисел используют дополнительный код, который позволяет заменить операцию вычитания сложением, что существенно упрощает работу процессора и увеличивает его быстродействие. Дополнительный код получается дополнением модуля отрицательного числа до нуля. Алгоритм получения дополнительного кода для отрицательного числа состоит из трех шагов.
1. Записать модуль числа в прямом коде в n двоичных разрядах.
2. Получить обратный код, инвертируя значения всех бит в прямом коде числа.
3. Прибавить 1 к полученному обратному коду.
Пример. Получить дополнительный код отрицательного числа –200910 в 16-разрядном компьютерном представлении.
Решение
1. Модуль числа 2009 в двоичной системе счисления равен 11111011001. Прямой 16-разрядный код числа 2009 получается добавлением нулей перед старшим разрядом двоичного кода до 16 разрядов (5 нулей). Получим прямой код: 0000011111011001.
2. Инвертируя значения бит в прямом коде, получим обратный код: 1111100000100110.
3. Добавляя 1 к обратному коду, получим дополнительный код: 1111100000100111.
Итак, отрицательное число –200910 в 16-разрядном компьютерном представлении будет равно дополнительному двоичному коду 1111100000100111.
Экспоненциальная форма (с плавающей точкой) применяется в компьютере для записи вещественных чисел вида a×10p (0,1£a<1), где a называется мантиссой, а p – порядком (например 0,3057×10+02). При представлении вещественных чисел выделяется 4 байта (удвоенное слово) или 8 байтов (учетверенное слово). Например, если выделено удвоенное слово (32 бита), то распределение двоичных разрядов имеет следующий вид.
… | … | … | … |
Знак порядка |
Знак числа |
Кодирование текстовых данных. Текстовые данные состоят из набора символов. Каждому символу компьютера сопоставляется определенное число (порядковый номер). Это число представляется в памяти компьютера в виде двоичного кода. Различными комбинациями из восьми битов (один байт) можно закодировать все символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, арифметические операции, специальные символы, например символ амперсанд (&) и др. Максимальное число различных символов, закодированных одним байтом, составляет 256.
Для IBM-совместимых компьютеров наиболее распространена стандартная система кодирования символов ASCII(американский код информационного обмена США). В системе ASCII закреплены две таблицы кодирования: базовая (значения кодов от 0 до 127) и расширенная (значения кодов от 128 до 255). В базовой таблице первые 32 кода являются управляющими кодами, которым не соответствуют никакие символы компьютера. Эти коды не выводятся на экран или печать, но с их помощью можно управлять выводом данных. Коды, начиная с 32 по 127, используются для кодировки символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов. Расширенная таблица кодирования предоставляется национальным системам кодирования. Так, например, в России наибольшее распространение получили: кодировка Windows-1251, используемая в локальных компьютерах, работающих на основе Windows, и ГОСТ-альтернативная кодировка в компьютерах, работающих в MS DOS.
В настоящее время в качестве общемирового стандарта предлагается универсальная двухбайтовая кодировка Unicode. Шестнадцать бит позволяют обеспечить уникальные коды для 65536 различных символов, что вполне достаточно для размещения в одной таблице символов большинства языков планеты. Рассмотрим несколько примеров.
Пример 1. В книге 500 страниц. На каждой странице книги 20 строк по 64 символа. Используя кодировку ASCII, определить объем книги в килобайтах.
Решение
На странице 20×64=1280 символов. В кодировке ASCII код символа занимает 1 байт. Объем страницы равен 1280 байт. В книге 500 страниц, что составляет 500×1280=640000 байт. Переведем в килобайты. 1 килобайт = 1024 байт. Следовательно, объем книги 640000/1024=625 Килобайт.
Пример 2. Сколько времени (в секундах) потребуется модему, передающему сообщения со скоростью 28800 бит/с, для передачи в кодировке ASCII 100 страниц текста в 30 строк по 60 символов каждая.
Решение
Объем текста равен 100×30×60×8=1440000 бит. Для его передачи по модему потребуется 1440000/28800=50 с.
Пример 3. Сообщение содержит 4096 символов. Объем сообщения при использовании равномерного кода составил 1/512 Мбайт. Определить мощность алфавита, с помощью которого записано данное сообщение.
Решение
Мощность алфавита – это количество символов в алфавите. Переведем информационный объем сообщения в биты. 1/512 Мбайт=(1/512)×1024×1024×8=16384 бит. Для кодирования одного символа отводится i=16384/4096=4 бит. Тогда мощность алфавита (N) по формуле Р. Хартли равна N=2i=24=16.
Кодирование графических данных. Наиболее распространенными методами представления графической информации являются растровая, векторная и фрактальная графика.
При растровом методе изображение представляется совокупностью точек – пикселей, для каждой из которых нужно задать цвет и яркость. Растровое кодирование позволяет использовать двоичный код для представления графических данных, так как линейные координаты и яркость каждой точки можно выразить целыми числами. Так, например, система кодирования RGB, состоящая из трех составляющих цветов (красный, зеленый, синий), для кодирования цвета одной точки использует 24 двоичных разряда. При этом система обеспечивает однозначное определение 16,5 млн. различных цветов, что близко к чувствительности человеческого глаза. Одним из недостатков растровых методов является трудность пропорционального изменения размеров изображения.
Векторные методы позволяют избежать проблем масштабирования, характерных для растровых методов. Изображение в векторных методах представляется совокупностью объектов – линий (отрезки, дуги и т.п.) и ограниченных ими фигур. Линии и фигуры задаются уравнениями и свойствами (цвет и начертание линии, цвет и способ заполнения фигуры). Изображение занимает меньший объем памяти, который зависит от числа и сложности объектов. Построение по данным требует специальных расчетов. Векторные методы используются для описания различных шрифтов, они позволяют изменять размер символов в широких пределах. Векторные методы также применяются в автоматизированных системах проектирования при отображении на экране чертежей сложных трехмерных объектов. Однако векторная технология не позволяет достичь высокого фотографического качества изображения, как при использовании растровых методов.
При фрактальном методе изображение строится не из линий, а по специальным формулам. Фрактальная графика позволяет получать наиболее сложное и реалистичное изображение. Используется в играх и других мультимедийных системах.
Рассмотрим некоторые примеры решения задач с использованием графики.
Пример 1. Растровое изображение размером 64´64 пикселя занимает 4 килобайта памяти. Определить максимальное количество цветов, используемых в изображении.
Решение
Сначала узнаем, сколько битовых разрядов используется для кодирования цвета одного пикселя. Всего пикселей 64×64=4096. Объем памяти 4 Кбайт=4×1024=4096 байтов. Получается, что на кодирование цвета каждого пикселя отводится 1 байт памяти, т.е. 8 битов. Далее обращаемся к формуле Р. Хартли, связывающей количество двоичных разрядов (Y) для кодирования цвета с количеством цветов (N). В нашем примере N=2Y=28=256. Итак, каждый пиксель может иметь один цвет из 256.
Пример 2. Растровый графический файл содержит черно-белое изображение с 2 градациями цвета (черный и белый) размером 800´600 точек. Определите необходимый для кодирования цвета точек (без учета служебной информации о формате, авторстве, способах сжатия и пр.) размер этого файла на диске в байтах.
Решение
Поскольку сказано, что изображение двухцветное, следовательно, для указания цвета одной точки достаточно двух значений, кодирующих белый или черный цвет. Два значения могут быть закодированы одним битом. Объем графического файла рассчитывается по формуле V=i×k, где
i (i=1 бит) – глубина цвета, а k – количество точек. Тогда объем графического файла равен V=1×800×600=480000 бит. Учитывая, что 8 бит=1 байт, получаем V=480000/8=60000 байтов. В реальности в графических документах кроме описания цвета точек присутствует еще и служебно-дополнительная информация (о формате записи, авторских правах, способах сжатия и пр.).
Кодирование звуковой информации. В настоящее время можно выделить два основных направления кодирования звуковой информации.
Метод частотной модуляции FM(Frequency Modulation). В природе звуковые сигналы имеют непрерывный спектр частот, то есть являются аналоговыми. В методе FM используется разложение звуковой волны на синусоиды, описывающие базовые колебания (гармоники). Разложение на последовательность гармонических сигналов и представление в виде дискретных цифровых сигналов (двоичных кодов) осуществляется с помощью специальных устройств – аналого-цифровых преобразователей (АЦП). Обратное преобразование и воспроизведение звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). Недостатком данного метода является то, что при преобразованиях неизбежны потери информации, поэтому качество звучания получается не вполне удовлетворительным.
Метод таблично-волнового синтеза(Wave-Table).Образцы множества различных звуков хранятся в заранее подготовленных таблицах (в технике такие образцы называются сэмплами). Числовые коды этих образцов содержат параметры, характеризующие особенности звука. При использовании данного метода качество звука получается высоким и приближается к качеству звучания реальных музыкальных инструментов.
Тесты