Мировые информационные ресурсы

Хорошилов, Селетков: «Мировые информационные ресурсы»

Таненбаум «Компьютерные сети»

citforum.ru

Ресурсы глобальной сети.

Глобальная сеть – объединение множества локальных сетей.

Всемирная паутина - распределенная система, предоставляющая доступ к связанным между собой документам, расположенным на различных компьютерах, подключенных к интернету. Всемирную паутину образуют миллионы компьютеров, предоставляющих доступ к хранимым на них документам пользователям сети, такие ПК, называются веб-серверами. Большинство информационных ресурсов всемирной паутины представляют собой гипертекст. Гипертекст - набор текстов, содержащих узлы перехода (ссылки) от одного текста к какому-либо другому, позволяющие выбирать читаемые сведения и последовательность чтения.

Современная структура Интернета.

Интернет провайдер – (англоязычная аббревиатура ISP) организация, предоставляющая услуги доступа к интернету и иные связанные с интернетом услуги. Интернет провайдеров можно разделить на типы в соответствии с предоставляемыми услугами:

1. Магистральные провайдеры - (backlone) первичные провайдеры, имеют собственные каналы связи( например, между городами и странами) и предоставляют их прочим (вторичным) провайдерам – RTCOMM.

2. Канальные провайдеры – арендуют каналы связи у магистральных провайдеров и продают возможность доступа к этому каналу, обычно имеют локальную сеть узлов доступа.

3. Провайдеры «последней мили» - предоставляют соединение между конечным потребителем (например, квартира) и провайдерским узлом доступа. Обычно используют технологии xDSL, WiMAX, WiFi, PLC.

С юридической точки зрения интернет провайдеры - это операторы связи, имеющие лицензию на один из следующих видов услуг:

1. Услуги связи по предоставлению каналов связи

2. Услуги связи в сети передачи данных за исключением передачи голосовой информации

3. Услуги связи по передаче голосовой информации в сети передачи данных

4. Телематические услуги

Интернет, каким он воспринимается сейчас, начинается с момента появления сервиса www.

Этот сервис быстро набрал популярность, изначально держателями информационных ресурсов www, были крупные организации. Постепенно средние и мелкие организации и даже частные лица захотели стать держателями собственных www - ресурсов, таким образом, сложился рынок провайдерских услуг – «услуги хостинга».

Хост - провайдеры – это организация, приобретающая профессиональное серверное оборудование, необходимые для его электроснабжения линии электропередач, каналы доступа в интернет, а также нанимающие в штат профессиональных техников и администраторов. Хост – провайдеры предоставляют физическим и юридическим лицам доступ к части ресурсов своего оборудования. Таким образом, за небольшую плату клиент получает качественный www - хостинг.

Разновидности услуг

1. Хостинг – клиенту предоставляется часть дискового пространства и производительность

2. Выделенный сервер – клиенту предоставляется отдельно-стоящая единица вычислительной техники, по желанию заказчика администрирование этой единицы могут выполнять специалисты провайдера

3. Соразмещение(colocation) - клиенту предоставляется ячейка в серверном шкафу, канал доступа в интернет и бесперебойное электропитание, оборудование предоставляется самим клиентом

4. Виртуальный выделенный сервер – имеет характеристики выделенного сервера, но технологически организуется аналогично хостингу

1. Найти историю развития интернета как сети

В 1957 году Министерство Обороны США посчитало, что на случай войны Америке нужна надежная система передачи информации. Агентство передовых оборонных исследовательских проектов США предложило разработать для этого компьютерную сеть. Разработка такой сети была поручена Калифорнийскому университету в Лос-Анджелесе, Стэнфордскому исследовательскому центру, Университету Юты и Университету штата Калифорния в Санта – Барбаре. Компьютерная сеть была названа ARPANET (Advanced Research Project Agency Network), и в 1969 году в рамках проекта сеть объединила четыре указанных научных учреждения. Все работы финансировались Министерством обороны США. Затем сеть ARPANET начала активно расти и развиваться, ее начали использовать ученые из разных областей науки.

2. Пиринг, пиринговые войны – это..?

Пиринг – соглашение интернет - операторов об обмене трафиком между своими сетями, а также техническое взаимодействие, реализующее данное соглашение: соединение сетей и обмен информацией о сетевых маршрутах по протоколу BGP.

Пиринговый договор состоит из трех элементов:

· Физическое соединение сетей

· Техническое взаимодействие между сетями, обмен маршрутами

· Коммерческие и договорные пиринговые соглашения

Типы пиринговых соглашений. Пиринг может осуществляться через:

· Частное соединение по схеме «точка-точка» между двумя сетями

· Точку обмена трафиком, возможно, не зависящую ни от одного провайдера, где множество провайдеров обмениваются трафиком.

Пиринг позволяет сократить маршруты передачи пакетов между сетями и снизить затраты на трафик.

Пиринговые войны – вид жесткой конкурентной борьбы крупных интернет – провайдеров, при котором в качестве средства изживания и давления на партнеров по рынку используется отказ от пиринга либо крайне невыгодные его формы при наличии более удобных альтернатив. Пиринговые войны резко негативно сказываются на цене интернет – связи, ее доступности для конечного пользователя и качестве (скорости).

2. Найти и разобрать пример пиринговой войны, т. е понять что делили

Наиболее заметное проявление пиринговых войн в России – введение в 2002-2003 году магистральными операторами цен на российский трафик (прежде для внутренних операторов он был бесплатен), конфликт Ростелекома с крупными провайдерами летом 2009 года, отказ от пиринга сетей внутри страны взаимозачетом и обмен трафиком на территории Европы. Из последних примеров пиринговых войн, можно привести конфликт дочерней компании Ростелеком (Ростелеком и РТКомм против ТрансТелеКом, ВымпелКом и АКАДО Екатеринбург).

25.02.2012

Сетевой уровень IP обеспечивает маршрутизацию, доставку до уникального узла сети, его

используют как сервер.

TCP/UDP их задача в транспортировке данных. TCP обеспечивает надежность.

Рисунок 1, трехэтапное квотирование.

Система именования доменов DNS.

Сервер имен - это программа управления распределенной базой данных, в которой хранятся символьные имена сетей, хостов и некоторых сервисов, с их IP-адресами. Задача DNS преобразование символьного имени в адрес.

Замечание: часто выделяют прямую и обратную DNS задачи. Прямое DNS преобразование подразумевает поиск IP- адреса по символьному имени. Обратное преобразование - поиск символьного имени по IP- адресу. На самом деле обе эти задачи реализуются с помощью одного и того же преобразования, поэтому их можно считать тождественными. DNS решает задачу преобразования символьного адреса в IP- адрес.

Выполнение функций DNS осложняется тем, что кол-во узлов в интернете экспонициально растет. Если объединить всю базу DNS на одном компьютере, это потребует колоссальных ресурсов, поэтому система DNS реализована архитектурно, как иерархическая система с распределенной базой данных.

Рисунок 2, схема взаимодействия пользовательских приложений с системой DNS.

База имен является распределенной. Нет ни одного компьютера, где она хранилась бы целиком. Каждый сервер содержит лишь часть дерева имен - эта часть называется зоной ответственности сервера. DNS сервер может делегировать ответственность за часть зоны другим серверам, создавая субзону. Когда в зоне появляется новый хост или субдомен, администратор зоны записывает его имя и IP- адрес в базу данных сервера. Имя, записываемое в базу, содержит несколько полей. Каждое поле длиной не более 63 символов, поля разделены символами, не может содержать более 255 символов, анализ имени производится справа налево.

Условно базу DNS можно представить как дерево. Корнем является корневой безымянный домен или домен с именем точкой (это домен 0 уровня). Домен первого уровня называется по географическому принципу, либо по организационному.

Замечание: корневой домен может быть указан, либо не указан в адресе. Если указан, то адрес называется абсолютным. Если он не указан, адрес называется относительным.

Абсолютные адреса используются, если в локальной системе применяются псевдодомены, например .local .

Структура имен обычно отражает структуру организации, но не отражает структуру сети. За именем может скрываться как обычный хост, так и домен. Например, sgu. ru -домен, mexmat.sgu.ru -хост.

Исторически сложилось, что компьютерам внутри домена давались имена согласно развернутым на них именам, это помогало не запутаться.

например, рисунок 3.

Замечание: в базе данных DNS хранится несколько разновидностей записей:

1. запись А, записать адреса связывающая имя хоста с IP- адресом

2. запись АААА тоже что и А, но для протокола IP версии 6

3. CNAME- запись о каноническом имени используемая при перенаправлении

4. PTR- запись указателя, связывающая IP- адрес хоста с его каноническим именем

5. NS- запись указывающая на DNS сервер данного домена

6. MX- указывают на почтовые сервера данного домена

7. SOA- начальная запись зоны, указывает на каком сервере хранится эталонная информация о данном домене

Для решения обратной DNS задачи в системе DNS предусмотрен специальный инфраструктурный поддомен, называющийся .in-addr.arpa . Этот поддомен называется зоной обратного просмотра. Он решает задачу предоставления символьного имени по IP- адресу, чтобы оставаться рамках идеологи именования DNS, этот домен разбит на поддомены по соответствующим октетам IP- адресов, например:

рисунок 4.

03.03.2012

Администратор зоны DNS вносит любые изменения в эту зону, эти изменения впоследствии реплицируются в глобальную распределенную базу DNS. Чтобы найти информацию о доменном имени неконтролируемом локальным DNS сервером, DNS сервер должен взаимодействовать с корневыми серверами в общем случае.

Рисунок 1.

Корневых серверов насчитывается около 10, их адреса должны храниться в конфигурационных файлах DNS сервера. Центральной организацией, контролирующей систему DNS, является INTERNIC. Адреса корневых серверов DNS можно получить с анонимного ftp- сервера InterNIC.

ftp://ftp.internic...

корневые серверы хранят информацию об именах и адресах всех серверов доменов второго уровня. Возможны два вида запросов:

1. Рекурсивные, подразумевают, что DNS сервер сам будет осуществлять все необходимые запросы и в итоге вернет клиенту IP- адрес запрошенного хоста

2. Итеративные, DNS сервер если не может сообщить IP- адрес запрошенного хоста, то сообщит адрес сервера, у которого можно этот IP- адрес спросить.

Одним из способов повышения эффективности трансляции доменных имен является кэширование. Т.е. хранение на стороне сервера локального DNS или даже у DNS клиента ранее посланных запросов. Кэш хранится кратковременно и не учитывает изменения, которые произошли после момента изменения КЭШа. На механизме кэширования основана одна из атак DNS системы, называется также атакой Каминского. Эта атака подразумевает подлог данных, хранимых в системе DNS, за счет заполнения КЭШа DNS сервера неправильной информацией. Частным случаем такой атаки является атака на преDNSтранслятор локального клиента.

Большинство локальных клиентов имеют преднсбазу, т.е. маленькую, зачастую текстовую, базу данных, по которой осуществляется поиск до того, как будет послан запрос к DNS серверу. Атаку используют, например, некоторые вирусы, указывая для доменных имен всех сайтов антивирусов, либо замыканием на себя, либо скомпрометированный хост. Такой же метод, как на уровне DNS клиентов, так и DNS серверов, может быть применен при фишинг атаках.

Существует еще один сервис сети интернет, предназначенный для получения информации о владельцах доменных имен и взаимодействующий, в том числе с DNS серверами. Сервис называется WHOIS.

Законодательное регулирование регистрации имен.

В РФ нет законов, специально регулирующих регистрацию доменных имен. Регулирование отношений по регистрации имен, осуществляется координационным центром…. путем принятий правил регистрации. Эти правила накладывают достаточно мягкую систему ограничений, запрещающую, например, регистрацию имен короче, чем 3 символа или совпадающих с наименованием географических объектов, субъектов федерации и крупных городов. Доменные имена упоминаются в некоторых подзаконных актах и кодексах. В основном это относится к использованию доменного имени в товарном знаке, а также в доменном имени товарного знака (статьи 1483 и 1484 ГК РФ). Законодательно установлен приоритет товарного знака на доменном имени. К договорам об оказании услуг по регистр доменного имени, применяются общие положения по оказанию услуг.

Киберскоттинг.

Это приобретение доменных имен, созвучных названиями с известными брендами или просто с «дорогими» названиями с целью их дальнейшей перепродажи или размещения рекламы.

Виды киберсквоттинга:

1. тайпсквоттинг - регистрация имен, близких по написанию с адресом популярных сайтов в расчете на ошибку пользователя при наборе. Например, Microsoft.com, сделав любую опечатку, наверняка попадем на какой-то сайт

2. брендовый сквоттинг - регистр доменных имен, содержащих товарные знаки, фирменные наименования, популярные имена собственные и прочие средства индивидуализации охраняемые законом

3. защитный киберсквоттинг – легальный владелец сайта или товарного знака регистрирует все доменные имена близкие, созвучные, связанные по смыслу с собственным доменным именем

4. битсквоттинг - обманка, придуманная регистраторами для "глупых" киберсквоттеров. Утверждается, что из-за сбоев аппаратной платформы DNS сервера может возникать «опечатка» в одном из битов доменного имени

17.03.2011

Регламентирующие организации интернета.

Интернет представляет собой слабо связанную совокупность гетерогенных сетей, соединенных по принципу host-to-host на основании открытых протоколов и процедур, описанных в технических стандартах. Из такого представления может показаться,

что интернет никем не управляется, однако это не так. Слаженная работа сетей в составе интернета обеспечивается качественными протоколами взаимодействия, их гибкостью и адаптивностью. Разработка протоколов различных уровней, а также многих других стандартных технологий, применяемых в интернете и его сервисах, относится к зоне ответственности нескольких организаций. В некотором смысле эти организации управляют интернетом и определяют его дальнейшее развитие. Почти все технологические стандарты интернета вводятся в эксплуатацию, разрабатываются и развиваются разработчиками организации ISOC и различными организациями,

действующими под эгидой ISOC.

Например, совет по архитектуре интернета IAB, группа по разработке инженерного регламента интернета IESG, инженерный совет интернета IETF, группа исследователей разработчиков интернета IRSG, исследовательская группа интернет технологий IRTF, редакционная коллегия RFC. Системой доменных имен и управлением адресным пространством интернета занимается интернет корпорация по присвоению имен и номеров ICANN и администрация адресного пространства интернета IANA.

стандарты ...разрабатывает W3C.

Перечисленные организации не контролируют структуру интернета. Интернет представляет собой, стихийно складывающееся объединение компьютерных сетей локальных и глобальных. Большинство этих сетей исторически используют инфраструктуру операторов связи, которые, в свою очередь, разбиваются исходя из потребностей рынка телематических и телекоммуникационных услуг. Другими словами изначально существовали телекоммуникационные сети, разраставшиеся из-за потребности в телефонной связи, а также передаче радио и телесигналов и лишь позднее на их основе произошло построение и развитие интернета.

ISOC к 1991 году бурный рост интернета в том числе его коммерческого сектора породил потребность в формальной организации интернет сообщества, эта потребность привела к созданию ISOC под эгидой CNRI . ISOC было основано в 1992 году, чтобы обеспечить корпоративную структуру для организаций, занимающихся развитием интернета. IETF и ей подобные организации были и остаются по сей день неформальными с юридической точки зрения, но они нуждаются в финансовой поддержке и определенном правовом статусе. Для этих целей и была создана ISOC. Управляется попечительским советом. состав организации: ISOC приглашает к сотрудничеству частных лиц, любой участник не имеет ограничений по возможностям участия в различных комитетах ISOC.

миссия и цели: обеспечить свободное развитие эволюцию и использование интернета на благо всех людей во всем мире. Цель способствовать развитию открытых стандартов, протоколов, администрирование и техническая инфраструктуры интернета. Сообщество предоставляет организационно-правовую основу группам, отвечающим за разработку технических стандартов интернет.

Юридически ISOC является некоммерческой образовательной организацией с головным офисом в Вирджинии в США и филиалом в Женеве Швейцария.

ISOC официально владеет правами на все документы RFC и способствует практическому внедрению стандартов интернета, описанных в RFC. Кроме информационной и образовательной деятельности сообщество интернета занимается финансированием и координацией общественных инициатив, связанных с интернетом. Оно спонсирует множество мероприятий по всему миру, направленных на популяризацию интернета и приобретение навыков у населения.

Также один из департаментов ISOC занимается подсчетом сетевой статистики и проведением маркетинговых исследований.

Финансированиеза счет сборов и пожертвований членов сообщества.

IETF в 1986 году первое совещание, это свободная самоорганизованная техническая группа, состоящая из сетевых администраторов, проектировщиков, ученых, производителей оборудования, пользователей и т.д.

Часто аббревиатуру IETF используют для коллективного обозначения IAB,IESG,IRTF, IRSG.

Структура: не является официальном органом и не имеет совета директоров, управляется попечительским советом ISOC. Организация разделена по тематическим направлениям на зоны, во главе каждой зоны стоит директор. Директора зон предлагаются комитетом по назначениям IETF и назначаются IAB. Области делятся на более специализированные рабочие группы во главе с председателями. Председатели подчиняются директору соответствующей зоны. Вся техническая работа осуществляется в рабочих группах, занимающихся конкретной тематикой.

Например, вопросами маршрутизации, безопасности, транспорта данных и прочее. Работа ведется через почтовые рассылки, но трижды в год проводится собрание IETF.

Результаты деятельности рабочих групп оформляются в виде "черновиков" интернета, которые затем используются ISOC для кодификации новых стандартов.

Состав: для IETF не определено понятие формального членства, участие в заседаниях и подписка на рассылки открыта для всех желающих, любой участник может участвовать только на правах частного лица.

Миссия: IETF занимается разработкой технических стандартов и архитектуры сети интернет, это главный орган, который разрабатывает, тестирует и внедряет новые технологические стандарты интернета, в том числе протоколы.

Задачи IETF также стандартизированы и описаны в стандарте RFC 4677:

1.идентификация проблем и предложение решений в технических аспектах организации интернета

2. разработка спецификации стандартов и соглашений по общим архитектурным принципам протоколов интернет

3.вынесение рекомендаций относительно стандартизации протоколов на рассмотрение IESG

4. содействие широкому распространению технологий и стандартов, разрабатываемых IRTF

5.организация дискуссий для обмена информацией в сообществе интернет между учеными, разработчиками пользователями производителями оборудования и услуг, сетевыми администраторами и т.д.

Финансирование: IETF находится на самообеспечении финансы поступают от участников рабочих групп небольшую часть бюджета обеспечивает ISOC.

IESG

24.03.2012

основана в 1989 году и является управляющей для ITF.

Структура: управляется ISOC, решения может быть обжалованы IAB. В состав входят директора зон IRTF, председатели групп, также имеется свой небольшой бюрократический аппарат.

Миссия и цели: рассматривает и утверждает стандарты IRTF,в целом управляет разработкой стандартов в соответствии с политикой и процедурами, утвержденными попечительским советом ISOC. Создает рабочие группы IRTF.

Финансирование: находится на самофинансировании, секретариат финансируется ISOC.

IRTF

Исследовательская группа Интернет-технологий, основана в 1989 году, представляет собой самоорганизующуюся исследовательскую группу.

Структура: состоит из автономных исследовательских групп, возглавляемых председателями, председатели назначаются и увольняются руководителем IRTF, в этот процесс может вмешиваться IAB, председатель назначается IAB.

Исследовательские группы создаются на долгосрочной основе, с целью глубоких исследований по перспективным вопросам исследований Интернет-технологий. По необходимости, членство в исследовательских группах может быть открытым или закрытым в отличие и исследовательских групп IETF, которые всегда открыты. Участники вносят свой вклад как частные лица, а не как представители компаний или организаций.

Миссия и цели: в отличие от IETF, которая концентрируется на инженерных стандартах, IRTF занимается долгосрочными исследованиями, исследуются те аспекты интернета, которые в настоящее время слишком абстрактны и не могут быть формализованы в технический стандарт. Когда IRTF выпускает спецификацию, которая подходит для стандартизации, ее передают на обработку в IETF.

Финансирование: самофинансирование, частично из бюджета ISOC.

IRSG

Основана в 1989 году, управляется IRTF.

Председатель IRTF управляет IRSG, в состав входят председатели исследовательских групп IRTF, также допускается участие специалистов со стороны.

Миссия и цели: консультирование и координация IRTF.

Финансирование: самофинансирование и поддержка ISOC.

IAB

Совет по архитектуре интернета, основан в июне 1992года как один из компонентов ISOC. Сформирована из ICCB.

Структура: IAB является структурным подразделением ISOC, но имеет высокую степень свободы. В состав входят выдвиженцы из групп IETF, утвержденные ISOC.

Миссия и цели:

1.надзор за архитектурой интернета, включая его протоколы и связанные с ними процедуры.

2.надзор за созданием новых стандартов интернета.

3.редактирование и публикация документов RFC

4.консультация руководства ISOC по техническим, архитектурным и процедурным вопросам, связанным с интернетом и его технологиями.

Финансирование: самофинансирование и поддержка ISOC.

RFC

Пронумерованные и зарегистрированные документы интернета называемые RFC, содержат технические спецификации и стандарты, широко применяемые при разработке интернет технологий всех возможных уровней. В настоящее время первичной публикацией документов RFC занимается IETF. Правами на RFC обладает ISOC.

В состав редакционной коллегии входят технические специалисты, назначенные ISOC.

Миссия и цели: составляет, утверждает и издает документы, включаемые в авторитетный архив стандартов интернета, также занимается управлением этим архивом.

Финансирование: полностью финансируется ISOC.

ICANN

Международная некоммерческая организация, созданная 18 сентября 1998 года при участии правительства США для регулирования вопросов, связанных с доменными именами, IP-адресами и прочими аспектами функционирования интернета.

Структура: организацией управляет совет директоров, большинство директоров выбираются комитетом по назначениям ICANN.

Миссия и цели: по учредительным документам ICANN ставит своей целью

1.обеспечение стабильности работы интернета, координация назначения технических параметров интернета по мере необходимости

2.координация распределения адресного пространства IP

3.координация системы доменных имен, включая выработку политик для определения обстоятельств, при которых должны создаваться или уничтожаться домены верхнего уровня

4.надзор за функционированием серверов корневой зоны DNS, а также за доменами первого уровня.

Также в уставе заявляется, что ICANN действует в интересах Интернет- сообщества, осуществляет свою деятельность в соответствии с принципами международного права и международными конвенциями и по мере возможности учитывает местное законодательство.

Одна из первичных задач ICANN - создание доменов первого уровня и делегирование доменных зон

Финансирование: финансируется из бюджетов регистраторов доменных имен и организаций, распределяющих выделенные им сегменты адресного пространства IP.

IANA

Администрация адресного пространства интернета. начала свою деятельность в 70х годах 20 века, является дочерней организацией ICANN и представляет собой некоммерческую организацию. На работу IANA сильное влияние оказывает правительство США, а именно министерство торговли. IANA работает коллегиально с IAB, IETF, IESG.

Миссия и цели:

1.управляет пространствами IP- адресов 4 версии протокола IP, делегирует свои полномочия по распределению IP- адресов региональным регистраторам в виде диапазонов класса А. Региональные регистраторы в свою очередь делегируют более мелкие диапазоны интернет провайдерам, также занимается распределением IP 6 версии, но эта инфраструктура еще не сложилась.

____________

Диапазоны IP- адресов частных сетей (локальные сети).

Поскольку адресное пространство IP ограничено, разработан механизм, при помощи которого организация может построить компьютерную сеть не имея выкупленного IP- адреса или имея таковых 1-2, но не более, чем компьютеров в организации.

Создавая собственную локальную сеть организация должна назначать адреса компьютерам из специальных диапазонов:

1. 10.0.0.0-10.255.255.255 (10.0.0.0/8)

2. 172.16.0.0-172.31.255.255 (172.16.0.0/12)

3. 192.168.0.0-192.168.255.255 (192.168.0.0/16)

Эти диапазоны также называются "серыми" адресами интернета. Этим адресам разрешено быть неуникальными в интернете.

Дополнения этого адресного пространства называются "белыми" IP- адресами.

Чтобы интегрировать локальную сеть в интернет, необходимо обеспечить однозначный способ доставки информации на компьютеры локальной сети. Для этого могут применяться механизмы:

1.PROXY- это сервер имеющий белый и серый IP- адреса, компьютеры локальной сети обращаются к нему с запросами, PROXY выполняет запросы от своего имени, получает результат этих запросов и отдает компьютеру локальной сети, пославшему этот запрос.

2. NAT\PAT допустим, организация имеет один белый IP- адрес, компьютер локальной сети посылает запрос на какой-то хост в интернете, этот запрос, проходя через шлюз организации, трансформируется:

а. формулируется новый запрос от имени хоста с белым IP- адресом, с некоторого порта

б. в таблицу NAT запоминается какому компьютеру локальной сети необходимо отправить ответ, пришедший на этот порт. При получении ответа по таблице NAT определяется, кому этот ответ предназначен и пересылается в локальную сеть.

_______________

2.IANA совместно с операторами доменов верхнего уровня, управляет корневыми серверами DNS

НАЙТИ ИНФОРМАЦИЮ О КОРНЕВЫХ СЕРВЕРАХ ДНС, СКОЛЬКО ИХ, КАКИЕ. ИНФОРМАЦИЮ О ЗЕРКАЛАХ КОРНЕВЫХ СЕРВЕРОВ ДНС, ЗАЧЕМ НУЖНЫ.

3. регистрируют типы данных MIME и некоторые другие параметризации интернета

MIME-это (многоцелевое расширение Интернет - почты) стандарт описывающий передачу различных типов данных по электронной почте, а также спецификация для кодирования информации и форматирования сообщений для передачи по интернет.

Пример. Роль MIME в протоколе http. Веб- браузер получая ответ от веб- сервера воспринимает получаемую информацию как поток данных.

07.04.2012

Финансирование: из средств ICANN.

W3C

Основана Тимом Бернерсом в 1994 году, организация возникла на базе Массачусетского технологического института в сотрудничестве с европейской организацией по ядерным исследованиям. Консорциум был создан как консультативный орган для лидеров компьютерной индустрии. Крупнейшие мировые IT- компании были приглашены в консорциум с целью достижения договоренностей о совместимости продуктов и внедрении новых технологических стандартов. Первым крупным успехом консорциума стала стандартизация языка html, основанного на широко применявшемся в то время sgml (1996 год).

Структура: управление консорциумом осуществляют три организации (1.масач тех институт, 2.европейский консорциум по исследованиям в области информатики и математики, 3.университет Кейо). Членам консорциума может стать юридическое или физическое лицо, занимающееся веб - технологиями и заинтересованное в развитии интернета, на данный момент в консорциуме 354 члена. Международную координацию осуществляют офисы консорциума. В настоящий момент они есть в 14 странах мира. Периодически проходят международные конференции консорциума. Процесс выработки стандартов проходит в специальных группах. Рабочие группы состоят из представителей организаций - членов, приглашенных экспертов и секретариата консорциума. 16фев 2012 года совместно с высшей школой экономики было открыто представительство в РФ.

Миссия и цели: консорциум разрабатывает для интернета единые принципы и стандарты, называемые рекомендациями. Благодаря рекомендациям консорциума достигается совместимость между программными продуктами и аппаратурой различных компаний, что делает всемирную сеть универсальной, совершенной и удобной.

Миссия: полностью раскрыть потенциал всемирной паутины путем создания протоколов и принципов, гарантирующих долгосрочное развитие сети. Цель: воплощение в жизнь идеи сетевой интероперабельности (достижение способности компьютерных программ универсально взаимодействовать в сети).

14.04.2012

Прочие целиконсорциума: обеспечить полную интернационализацию сети, сделать сеть доступной для людей с ограниченными возможностями. Для решения первой из этих задач консорциум сотрудничает с организацией unicode и рядом других рабочих групп, занимающихся международным сотрудничеством в интернете и языковыми технологиями. Для решения второй задачи консорциум сотрудничает с организациями соответствующего профиля, а также разрабатывает собственные рекомендации. Любой стандарт консорциума проходит 4 стадии согласования:

1. рабочий проект Working Draft

2. последний созыв Last Call

3. кандидатная рекомендация

4. предлагаемая рекомендация

Лишь после этого становится рекомендацией консорциума. Рекомендации могут обновляться, к ним могут публиковаться сообщения о выявленных ошибках и неточностях errata, когда накапливается достаточный набор выявленных ошибок, выходит новая исправленная и доработанная редакция. В исключительных случаях вся рекомендация может быть отозвана консорциумом для переработки.

------------

Для удобства пользователей консорциум создает и предоставляет публичный доступ к специальным программам валидаторам (Online Validation Service), которые в режиме реального времени могут проверить документ на соответствие наиболее используемым рекомендациям. validator.w3.org

------------

Финансирование: основным источником финансирования консорциума являются членские взносы.

посмотреть сайт csszengarden.com

Язык XML

XML- это расширяемый язык размётки. текстовый формат, предназначенный для хранения структурированных данных для обмена информацией между приложениями, а также для создания специализированных языков размётки.

Целью создания XML было обеспечение интероперабельности приложений, взаимодействующих через интернет. На базе XML реализованы такие специализированные языки разметки, как RSS, RDF, XHTML, MathML, SVG, SOAP(протокол обмена структурированными сообщениями в распределенной вычислительной среде, предназначен в основном для удаленного вызова процедур), WSDL(язык описания веб-серверов и доступа к ним, основан на SOAP).

Консорциум предполагает что постепенно XML полностью вытеснит HTML. В HTML отмечают существенные недостатки, ликвидированные в XML:

1. отсутствие жестких правил. Стандарт HTML не предъявляет строгих правил синтаксиса. например, можно открыть тег и не закрывать его, браузер встретив такую разметку должен сам попытаться интерпретировать что хотел сказать дизайнер.

2. невозможность расширения. HTML нельзя добавить собственные теги, которые могли бы отображать структурные особенности предметной области и нести семантику размечаемого текста.

Замечание: проблема 2 признает даже сообщество разработчиков сайтов, в настоящее момент для преодоления этой проблемы используется микроформат(muF или uF). Микроформаты - это метаязыки, не нарушающие синтаксис базового языка.

Например если сделать размётку ...,то спец поисковые роботы будут понимать, что внутри этого блока находится информация о человеке(имя, телефон, адрес и прочее).

Соответствующие альтернативы в XML

1. XML закрепляет несколько строгих синтаксических правил

а. зоны действия тегов могут вкладываться, но не могут пересекаться

пример...

б. каждый тег должен иметь закрывающую часть, в том числе теги считающиеся одинарными

пример... но для одинарных тегов допускается сокращенная форма записи ...

в. все значения атрибутов должны быть взяты в кавычки

г. XML чувствителен к регистру, должны совпадать регистры открывающих и закрывающих тегов

пример ...

д.в XML документе может быть только один тег верхнего уровня, называемый корневым, все остальные вкладываются в него.

замечание: при выполнении этих правил HTML разметка становится валидной по XML.

2. в XML можно использовать любые теги, в том числе написанные русскими буквами

пример * ...

----

преимущества и недостатки XML

--------

Основная задача XML вернуть язык разметки страниц к изначальной идеологии разделения оформления и содержания.

DTD - определение типа документа.

Существуют два уровня соответствия стандартам XML. Документы, удовлетворяющие всем требованиям синтаксиса, называются правильно структурированными, они годятся для большинства случаев использования XML. Но более строгими являются валидные XML документы, которые не только синтаксически корректны, но также имеют в своем составе DTD(или ссылку на внешний DTD).

21.04.2012

DTD представляет собой набор правил построения документа, включающие

1. полный список допустимых элементов (тегов)

2. полный список атрибутов каждого элемента с информацией об их обязательности и значениях по умолчанию

3. иерархическая структура документа, указывающая какие элементы, в каком порядке и в каких сочетаниях, в каком кол-ве могут встречаться внутри каждого из элементов.

Замечание: каждая версия известного языка HTML тоже имеет DTD. Построив документ можно явно указать какому DTD он соответствует, вставив первой строкой инструкцию <!DOCTYPE....>. Эта договоренность была разработана позже, чем введены в действие ранние стандарты HTML и старые браузеры. Сама запись для совместимости со старыми браузерами сделана в формате комментария, т.е. браузер не знающий специальные значения этой записи проигнорирует ее. Для современных браузеров эта запись является определителем режима функционирования. Если в документе обнаружен <!DOCTYPE....> и он записан без ошибок, то браузер считает этот документ валидным и интерпретирует по указанному в <!DOCTYPE....> стандарту. В противном случае браузер обрабатывает документ в режиме обратной совместимости.

Наличие DTD не преобразует документ, но влияет на его обработку браузером, а также поисковыми ботами. Документ, для которого указан правильный <!DOCTYPE....>, и который не содержит ошибок относительно этого <!DOCTYPE....> будет однозначно интерпретироваться современными браузерами и более охотно восприниматься поисковыми машинами.

Замечание: не все браузеры в полной мере поддерживают стандарт, ориентируясь на наиболее новые версии ведущих браузеров, можно говорить о полноценной поддержке HTML4, XML1.0 и 1.1, CSS 2. Но по функциональным возможностям потребителя больше привлекают HTML5,CSS 3, а о их полной поддержке пока речи не идет. В связи с этим в профессиональном сообществе сложилось понятие кроссбраузерной размётки. Это такая размётка, а точнее приемы размётки, которые однозначно интерпретируются несколькими последними версиями ведущих браузеров.

Пространство имен.

Имя каждого тега в XML должно быть уникально, но в XML -документ может быть включен другой документ, содержащий такие же по названию теги, но несущие другой смысл. Чтобы различать одни и те же имена тегов и атрибутов, несущие разный смысл, их можно снабдить специальным префиксом, отделяемым от имени: этот префикс связывается с идентификатором, определяющим пространство имен. Внутри одного пространства все имена уникальны. Имя вместе с префиксом называется уточненным именем. Идентификатор пространства имен должен иметь форму URAI, этот URAI не имеет никакого значения и даже может не соответствовать действительному адресу сайта. Программы использующие документ не будут обращаться к этому адресу.

пример для *

Расширяемый язык ссылок XLL

Это одно из стандартизированных расширений XML, предоставляющее механизм создания гиперссылок в XML- документах, обладает след особенностями

1. XML ссылки реализованные не на уровне тегов, как в случае HTML, а с помощью зарезервированных имен атрибутов. Это позволяет с легкостью превратить в гипертекстовую ссылку любой элемент документа.

2. для XML- ссылки можно указать будет ли она обычной ссылкой, активируемой пользователем или браузер должен, встретив ее в документе, активизировать ее самостоятельно, не дожидаясь команды пользователя

3. для ссылки можно указать результат ее активации, например, вывести документ, на который она ссылается вместо текущего или вставить этот документ внутри текущего или организовать новый контекст вывода.

Внесены усовершенствования в синтаксис URL использующийся в ссылках. Они позволяют адресоваться к любому фрагменту XML или HTML файла, при этом не требуется, чтобы автор файла вносил какую-то спец размётку.

Расширяемый язык стилевых спецификаций. XST - обработка XML- документа, использующего XSL стили, происходит в 2 этапа. На первом этапе иерархическое дерево исходного документа преобразуется в другое дерево, содержимое при этом может быть переупорядочено, часть материала отфильтрована, а также сгенерирован новый. Могут измениться даже теги. Стандарт XXL содержит базовый набор тегов визуального форматирования, по возможностям превосходящий CSS 2. На втором этапе происходит форматирование документа, т.е. интерпретация тегов преобразованного документа и вывод на экран или печать.

Замечание: преобразование XSLT часто используют для преобразования документов из одного DTD в другое. Например,1С предприятия версии 8 и выше содержит механизм выгрузки данных в формате XML и механизм загрузки данных XML, при этом выгрузка производится в схеме стандартизированной конфигурацией, а для загрузки можно использовать XSLT схему, преобразующую загружаемый документ к стандартизированному 1С.

XHTML- одна из версий HTML появилась в 200? , представляет собой HTML , использующий строгость размётки XML. В XHTML нельзя вводить собственные теги, но правила разметки страницы носят не рекомендательный, а обязательный характер. Страница, приведенная с обычного HTML на XHTML будет корректно отображаться и распознаваться XML анализаторами. Основные правила размётки XHTML:

1. в начале документа обязательно указать <!DOCTYPE....>, со ссылкой на один из нескольких DTD XHTML

2. в документе обязательно должны присутствовать теги HTML, head, body, причем элемент title должен быть употреблен первым внутри head

3. все значения атрибутов должны быть заключены в кавычки

4. должна соблюдаться правильная вложенность тегов

5. закрывающие теги обязательны

6. все теги и имена атрибутов должны указываться в нижнем регистре.

28.04.2012

Принципы построения информационно-поисковых систем.

бд принято делить на 2 группы:

1. фактографические - предназначенные для хранения структурированной информации

2. документографические - предназначенные для хранения полнотекстовой информации

Наиболее популярной реализацией (1) являются реляционные базы данных- все данные представлены в виде таблиц, имеют развитый математический аппарат и основанный на этом аппарате стандартизированный язык запросов SQL.

Огромное кол-во информационных ресурсов не могут быть представлены в виде таблиц и не структурированны в математическом смысле.

(2) также часто называются информационно-поисковыми системами, их основная задача поиск информации. Результатом этого поиска является набор документов, содержащих данные соответствующих запросов.

Запрос с которым пользователь обращается к системе - это значение его информационной потребности, выраженное на специальном языке, однако запрос может быть выражен неправильно или не отображать полноту информационной потребности.

Определение: пертинентность - свойство документа соответствия информационному запросу. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными.

Релевантность - свойство соответствия документа информационному запросу в том виде, в каком он сформулирован.

Смысловое содержание запроса формализуется в виде поискового предписания и поисковых образов документов. Для записи предписаний и образов применяются специальные информационно-поисковые языки. В процессе проведения информационного поиска степень соответствия содержания документа запросу пользователя определяется сопоставлением поискового образа и предписания.

На основе такого сопоставления принимается решение о выдаче документа, он признается релевантным.

В состав типичной поисковой информационной системы входят:

1. подсистема ввода и регистрации

2. подсистема обработки

3. подсистема хранения

4. подсистема поиска

Текстовые документы, поступающие на вход системы, могут быть представлены в различной форме. Например, федеральный закон может быть представлен в виде текста или скана, хранимого в PDF- формате. Поэтому подсистема ввода и регистрации решает следующие задачи:

1. создание электронных образов документов, в том числе полученных с классических носителей

2. преобразования форматов электронных документов в формат принятый для внутреннего хранения системы

3. регистрация документа, а также хранение истории его изменения при необходимости

все поступающие документы без внесения в них каких - либо изменений отправляются в подсистему хранения.

Для глобальных поисковых систем хранение документов представляет собой очень сложную задачу, поскольку сохранить в одном месте все содержимое интернета невозможно.

Из подсистемы хранения документы поступают в подсистему обработки. Задачей этой подсистемы является формирование для каждого документа поискового образа. В который заносится информация, необходимая для последующего пользования. Индексом поисковой системы, называется хранилище сгенерированных поисковых образов документов. Структура индекса информационно- поисковых систем, как правило является коммерческой тайной. При поступлении на вход системы запроса от пользователя, он преобразуется в поисковое предписание и передается в подсистему поиска, задачами которой является отыскание в индексе поискового образа документов, удовлетворяющих поисковому предписанию. Идентификаторы релевантных документов попадают на вход подсистемы хранения, которая осуществляет выдачу пользователю документов или ссылок на них.

12.05.2012

Информационно-поисковые языки.

Языки классифицируются по сложности их грамматики, выделяют контекстно-зависимые и контекстно-свободные грамматики.

Наиболее удобными для автоматизированного анализа являются языки с односторонними контекстно-ориентированными грамматиками. К таким относится большинство языков программирования.

Естественный язык относится к контекстно-независимым языкам. Анализ высказываний, построенный в таких языках, представляет собой сложную задачу.

Идеальная информационно - поисковая система должна предоставлять возможность формулирования запросов на естественном языке, поскольку грамматика естественного языка является контекстно-свободной. При ее машинном анализе возникает несколько проблем:

1) многообразие средств передачи смысла. В естественном языке могут возникать изменения смысла лексических единиц в зависимости от контекста изложения, устойчивых связей между словами и прочее.

2) семантическая неоднозначность. Возникает обычно из-за синонимии и многозначности слов естественного языка. Синонимия представляет собой тождественность или близость одних и тех же слов, выражающих одно и тоже понятие. Например, должен и обязан.

Многозначность характеризуется возможностью неоднозначного понимания смысла отдельных слов.

Многозначность возможна двух видов:

1. полисемия - совпадение названий различных предметов, имеющих общие свойства и признаки. Например, оператор, группа.

2. омонимия - совпадение названий различных предметов, не имеющих между собой никаких общих свойств. Например, ключ.

3. эллипсисность - пропуски подразумеваемых слов. Одна из самых сложных проблем распознавания естественных языков. Методик извлечения смысла из фраз в естественном языке, имеющих эллипс на данный момент не существует.

Информационно - поисковым языком, называется специализированный искусственный язык, предназначенный для описания содержания документа с целью обеспечения возможности их дальнейшего поиска.

Информационно - поисковые языки обычно строятся на базе естественных языков, но отличаются компактностью, наличием четких грамматических правил, отсутствием выразительных средств, и как следствие неоднозначностей. Пример, SQL.

Информационно - поисковые языки принято подразделять на 2 типа:

1. классификационные.

2. дискрипторные (описательные).

В лексемы (1) входят, кроме обычных слов, выражения, а также заранее включенные словосочетания и фразы, выражающие сложные понятия. При этом задача построения сложного выражения обычно сводится к выбору из многоуровневого справочника. Например, классификатор научных специальностей ВАК, библиотечный классификатор УДК и ББК.

Частным случаем классификационного информационно - поискового языка является рубрикатор, лексическими единицами которого являются названия тематических рубрик.

(2) это языки, лексемами которого являются заведомо - несвязанные текстуальными отношениями лексемы естественного языка. Сложные синтаксические конструкции создаются путем объединения во время процедуры представления смыслового содержания документов системы. Предопределенных составных лексем в таких языках нет. В связи с чем отсутствуют ограничения на составление сложных понятий, это посткоординируемые языки.

Различают дискрипторные информационно - поисковые языки с грамматикой и без грамматики. С грамматикой имеют жесткие правила формирования синтаксических конструкций. Без грамматики такие правила отсутствуют.

Глобальные поисковые системы.

Глобальные поисковые системы - это информационно- поисковые системы, которые в качестве обрабатываемого массива документов рассматривают всемирную паутину.

Алгоритм работы глобальной поисковой системы можно разбить на два этапа:

1. сбор страниц. Для сбора страниц поисковая система обычно использует самостоятельный модуль, называемый поисковым роботом или пауком. Это программа, осуществляющая автоматическое сканирование веб - ресурсов.

Источники из которых поисковый бот узнает о существовании страниц:

а. ссылки обнаруженные на других страницах

б. оправленные поисковой системе ссылки на вновь созданные сайты, а также формально представленная карта сайта sitemap.xml выполняется обычно веб- мастером.

в. tool - бары, предоставляемые различными поисковиками.

19.05.2012

Страницы могут быть отмечены, как запрещенные для индексации. Для этого используется robot.txt файл, который кладется в корень сайта. В этом файле отмечаются страницы или группы страниц (находящиеся в одной папке или имеющие общие части имени) на которые роботу заходить нельзя. Согласно договоренности также можно указать конкретный тип робота, для которого действуют указанные запреты. Также можно запретить индексацию отдельных частей страницы на уровне HTML, для этого используется тег <noindex>...</noindex>. Можно запретить поисковику переходить по ссылке со страницы, для этого у ссылки должен быть атрибут rel="nofollow". Эти же настройки можно определить для всей страницы целиком поместив в заголовке тег <meta name="robots" content= "noindex",nofollow, или вместе />.

2.Индексирование страниц. Узнав о существовании страницы, робот поисковой системы скачивает ее и анализирует. Внешний вид страницы и то, как ее видит поисковый робот нетождественные понятия. К примеру, страница полностью построенная на технологии флэш может быть очень красивой, информативной и удобной, но робот ее увидит как страницу, содержащую один единственный медиа- объект - флэш- ролик, при этом текст страницы и расположенные на ней ссылки не будут видны роботу.

При анализе страницы внимание робота может быть обращено на значение элемента <title> , текст страницы, а также на альтернативный текст картинок и некоторые значения описанные в meta.

Некоторое время назад поисковики уделяли большое внимание значению атрибута <meta name ="keywords"; content="учебник,студент"/>. В настоящее время большинство поисковиков не обращают внимания на ключ слова. Наиболее значимыми считаются заголовок (title), а также выделенные слова в тексте. Поисковик разбивает текст страницы на отдельные слова и строит числовую оценку для каждого слова. На значимость слова может повлиять номер предложения от начала текста, удаленность этого слова от начала предложения, а также наличие специальных выделения. Учитывается лишь семантическое выделение. Например, <style> glavnoe {font-size: 20pt; color: red;} <style/> ... <p> слово1 <span class ="glavnoe">слово2</span> <еm>слово3</em></p>.

Кроме текста могут быть проанализированы изображения на странице, для этого поисковик пытается найти у каждого изображения атрибуты title и alt. Если у изображения есть такие атрибуты, они будут проанализированы также, как и текст, и по соответствующему поисковому запросу можно будет находить эти изображения. Например, <img src="/1.jpg" alt="Иванов И.И."/>.

Данные, записанные в полях мета, все же анализируются некоторыми поисковыми системами, либо глобальными системами в исключительных случаях. Например, существует договоренность о разметке мета- информации, называемая Дублинским ядром. По сути, эта договоренность, эквивалентна правилам заполнения библиотечных карточек. Если сайт зарегистрирован в какой-либо библиотечной электронной системе, например, google schoolar.

Также поисковые машины обращают внимание на геоинформационные поля мета.

Поисковый спам.

Из-за злоупотребления при заполнении полей keyword, discription и прочих, поисковые машины практически перестали обращать внимание на значения этих полей, но встречаются случаи, когда разработчик, желающий вывести свой сайт в топ поисковика по определенным запросам прибегает к методам, отсечь которые трудно. Например, <style> .geo_text{color:white;background:white; font-size:1pt;} </style>... <p class = "geo_text"> Мир,труд,май </p>, называется поисковый спам, сложно отследить. Сайт с поисковым спамом обычно исключается из индекса навсегда.

Однако есть легальные технологии, формализованные, как набор правил, позволяющие строить, таким образом, веб - страницы, чтобы они были наиболее дружелюбны поисковому роботу. Класс таких технологий называют SEO.

Ранжирование выдачи.

До эпохи поисковых машин основным инструментом поиска в интернет были каталоги, например, желтые страницы интернета. Поисковые машины существовали, но были достаточно слабыми и давали результат, существенно менее качественный, чем каталоги.

Идея поисковика Google заключалась в анализе интернета, как ориентированного графа, при этом для каждой страницы вычислялся показатель значимости этой страницы Page Rank и при выводе результатов запроса, страницы обладающие одинаковой релевантностью сортировались по убывают показателя Page Rank.

Аналогом Page Rank является индекс цитирование.

Алгоритмы ранжирования хранятся поисковиками в тайне, во избежание спекуляций со стороны веб - мастеров. В настоящий момент существует несколько объективных показателей популярности веб - ресурсов. Часть этих показателей влияет на ранжирование при выдаче результатов запросов, часть не влияет. Рассмотрим наиболее важные:

1. Google Page Rank - показатель измеряющийся от 0 до 10, возможна ситуация неопределенности. Встречается редко и в основном для новых сайтов.

Ориентировочная формула расчета Page Rank ... , где ... таким образом, каждая страница раздает свой Page Rank другим страницам, на которые ссылается и получает часть Page Rank, ссылающихся на нее страниц.

2. тиц - показатель исчисляемый от 0 до некоторого неопределенного максимума. Отличается от Page Rank тем, что показывает авторитетность всего сайта, а не отдельных его страниц. Не влияет на поисковую выдачу, но влияет на позицию ресурса в каталоге яндекса. Для оценки отдельных страниц яндекс также использует виц, он является непубличным, но влияет на поисковое ранжирование.

3. Alexa Rank показатель посещаемости ресурса, а также сопряженной с ней статистикой (среднее время проведенное на странице, богатство контента и прочее в т.ч демографические показатели)

назначение технологии ssl в контексте http