Помощь в написании студенческих работ
Антистрессовый сервис

Система адресации и поиск информации в интернет

КурсоваяПомощь в написанииУзнать стоимостьмоей работы

Поисковая система «Апорт!» была разработана компанией «Агама» при поддержке Intel и впервые продемонстрирована в феврале 1996 года на пресс-конференции «Агамы» по поводу открытия «Русского клуба». Тогда она искала только по сайту russia.agama.com. Важнейшими свойствами первой версии «Апорта» являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех… Читать ещё >

Система адресации и поиск информации в интернет (реферат, курсовая, диплом, контрольная)

Система адресации и поиск информации в интернет

  • Введение

За последние несколько лет глобальная сеть Интернет превратилась в явление мирового масштаба. Сеть, которая до недавнего времени использовалась ограниченным кругом ученых, государственных служащих и работников образовательных учреждений в их профессиональной деятельности, стала доступной для больших и малых корпораций и даже для индивидуальных пользователей.

  • Изначально Интернет представлял собой достаточно сложную систему для рядового пользователя. Как только Интернет стал доступен для коммерческих фирм и частных пользователей, началась разработка программного обеспечения для работы с различными полезными сервисами Интернет, такими, как FTP, Gopher и Telnet. Специалисты также создали совершенно новый вид услуг, например, World Wide Web — систему, позволяющую интегрировать текст, графику и звук.

Курсовая работа посвящена исследованию систем адресации и методам поиска необходимой информации в сети Интернет. Изучаемые здесь вопросы на сегодняшний момент очень актуальны, так как в Интернет сегодня представлена информация на любые темы, которые только можно себе представить. Но найти в глобальной сети нужную информацию не так-то легко из-за того, что она по своей природе не имеет чёткой структуры. Поэтому для быстрого получения свежей справочной информации в Интернет подробно описываются перечисленные выше вопросы.

1. Интернет и его возможности

Интернет — это глобальная компьютерная сеть, в которой локальные, региональные и корпоративные сети соединены между собой многочисленными каналами передачи информации с высокой пропускной способностью.

Её назначение — обеспечить любому желающему постоянный доступ к любой информации. Интернет предлагает практически неограниченные информационные ресурсы, полезные сведения, учёбу, развлечения, возможность общения с компетентными людьми, услуги удалённого доступа, передачи файлов, электронной почты и многое другое. Интернет обеспечивает принципиально новый способ общения людей, не имеющий аналогов в мире.

Благодаря сети стал доступен (бесплатно или за умеренную плату) огромный объём информации. Так, пользователь в любой стране может связаться с людьми, разделяющими его интересы, или получить ценные сведения в электронных библиотеках, даже если они находятся на другом конце света. Нужная информация окажется в его компьютере за считанные секунды, пройдя путь по длинной цепочке промежуточных компьютеров, по кабелям и по радио, через горы и моря, по дну океана и через спутник.

Сеть была создана в 1984 году, и сейчас ею пользуются сотни миллионов человек. Интернет всё время модернизируется. Постоянно появляются новые серверы, а существующие обновляют свое наполнение и информационный объем. Стремительно растут информационные потоки.

В каждой локальной, региональной или корпоративной сети имеется, по крайней мере, один компьютер (сервер Интернета), который имеет постоянное подключение к Интернету.

Для подключения локальных сетей чаще всего используются оптоволоконные линии связи. Однако в случаях подключения неудобно расположенных или удаленных компьютерных сетей, когда прокладка кабеля затруднена или невозможна, используются беспроводные линии связи. Если передающая и принимающая антенны находятся в пределах прямой видимости, то используются радиоканалы, в противном случае обмен информацией производится через спутниковый канал с использованием специальных антенн.

Сотни миллионов компьютеров пользователей могут периодически подключаться к Интернету по коммутируемым телефонным каналам с помощью провайдеров Интернета. Провайдеры Интернета имеют высокоскоростные соединения своих серверов с Интернетом и поэтому могут предоставить Интернет-доступ по телефонным каналам одновременно сотням и тысячам пользователей.

Для соединения компьютера пользователя по телефонному каналу с сервером Интернет-провайдера к обоим компьютерам должны быть подключены модемы. Модемы обеспечивают передачу цифровых компьютерных данных по аналоговым телефонным каналам с различной скоростью (Кбит/с).

Современные ADSL-технологии позволяют использовать обычные телефонные каналы для высокоскоростного (1 Мбит/с и выше) подключения к Интернету. Важно, что при этом телефонный номер остается свободным.

Обычные и ADSL модемы подключаются к USB-порту компьютера и к разъему телефонной розетки.

Пользователи портативных компьютеров могут подключаться к Интернету с использованием беспроводной технологии Wi-Fi. На вокзалах, в аэропортах и других общественных местах устанавливаются точки доступа беспроводной связи, подключенные к Интернету. В радиусе 100 м портативный компьютер, оснащенный беспроводной связью, автоматически получает доступ в Интернет.

Самый распространенный и недорогой способ подключения к Интернету — посредством модема и телефонной линии. При этом используются три типа подключения, отличающиеся друг от друга по объёму услуг и цене:

· почтовое — позволяет только обмениваться электронной почтой с любым пользователем Интернет, самое дешёвое;

· сеансовое в режиме on-line («на прямой линии») — работа в диалоговом режиме — все возможности сети на время сеанса;

· прямое (личное), самое дорогостоящее — все возможности в любое время.

Отдельные участки Интернет представляют собой сети различной архитектуры, которые связываются между собой с помощью маршрутизаторов. Передаваемые данные разбиваются на небольшие порции, называемые пакетами. Каждый пакет перемещается по сети независимо от других пакетов. Сети в Интернет неограниченно коммутируются (т.е. связываются) друг с другом, потому что все компьютеры, участвующие в передаче данных, используют единый протокол коммуникации TCP/IP. На самом деле протокол TCP/IP — это два разных протокола, определяющих различные аспекты передачи данных в сети:

· протокол TCP (Transmission Control Protocol) — протокол управления передачей данных, использующий автоматическую повторную передачу пакетов, содержащих ошибки; этот протокол отвечает за разбиение передаваемой информации на пакеты и правильное восстановление информации из пакетов получателя;

· протокол IP (Internet Protocol) — протокол межсетевого взаимодействия, отвечающий за адресацию и позволяющий пакету на пути к конечному пункту назначения проходить по нескольким сетям.

Схема передачи информации по протоколу TCP/IP такова: протокол ТСР разбивает информацию на пакеты и нумерует все пакеты; далее с помощью протокола IP все пакеты передаются получателю, где с помощью протокола ТСР проверяется, все ли пакеты получены; после получения всех пакетов протокол ТСР располагает их в нужном порядке и собирает в единое целое.

Каждая машина, подключенная к глобальной сети Интернет, имеет свой уникальный числовой адрес, называемый IP-адресом. IP-адреса представляют собой основной тип адресов, на основании которых сетевой уровень передает пакеты между сетями. Эти адреса состоят из 4 байт, например 109.26.17.100. IP-адрес назначается администратором во время конфигурирования компьютеров и маршрутизаторов. IP-адрес состоит из двух частей: номера сети и номера узла. Номер сети может быть выбран администратором произвольно, либо назначен по рекомендации специального подразделения Internet (Internet Network Information Center, InterNIC), если сеть должна работать как составная часть Internet. Обычно поставщики услуг Internet получают диапазоны адресов у подразделений InterNIC, а затем распределяют их между своими абонентами. Номер узла в протоколе IP назначается независимо от локального адреса узла. Маршрутизатор по определению входит сразу в несколько сетей. Поэтому каждый порт маршрутизатора имеет собственный IP-адрес. Конечный узел также может входить в несколько IP-сетей. В этом случае компьютер должен иметь несколько IP-адресов, по числу сетевых связей. Таким образом, IP-адрес характеризует не отдельный компьютер или маршрутизатор, а одно сетевое соединение.

Классы IP-адресов

IP-адрес имеет длину 4 байта и обычно записывается в виде четырех чисел, представляющих значения каждого байта в десятичной форме и разделенных точками, например, 128.10.2.30 — традиционная десятичная форма представления адреса, а 10 000 000 1 010 10 11 110 — двоичная форма представления этого же адреса.

Адрес состоит из двух логических частей — номера сети и номера узла в сети. Какая часть адреса относится к номеру сети, а какая — к номеру узла, определяется значениями первых бит адреса. Значения этих бит являются также признаками того, к какому классу относится тот или иной IP-адрес.

На рис. 1 показана структура IP-адреса разных классов.

Рис. 1. Структура IP-адреса

Если адрес начинается с 0, то сеть относят к классу, А и номер сети занимает один байт, остальные 3 байта интерпретируются как номер узла в сети. Сети класса, А имеют номера в диапазоне от 1 до 126. (Номер 0 не используется, а номер 127 зарезервирован для специальных целей). Сетей класса, А немного, зато количество узлов в них может достигать 224, то есть 16 777 216 узлов.

Если первые два бита адреса равны 10, то сеть относится к классу В. В сетях класса В под номер сети и под номер узла отводится по 16 бит, то есть по 2 байта. Таким образом, сеть класса В является сетью средних размеров с максимальным числом узлов 216, что составляет 65 536 узлов.

Если адрес начинается с последовательности 110, то это сеть класса С. В этом случае под номер сети отводится 24 бита, а под номер узла — 8 бит. Сети этого класса наиболее распространены, число узлов в них ограничено 28, то есть 256 узлами.

Если адрес начинается с последовательности 1110, то он является адресом класса D и обозначает особый, групповой адрес — multicast. Если в пакете в качестве адреса назначения указан адрес класса D, то такой пакет должны получить все узлы, которым присвоен данный адрес.

Если адрес начинается с последовательности 11 110, то это значит, что данный адрес относится к классу Е, адреса этого класса зарезервированы для будущих применений.

В таблице 1 приведены диапазоны номеров сетей и максимальное число узлов, соответствующих каждому классу сетей.

Таблица 1. Характеристики адресов разного класса

Большие сети получают адреса класса А, средние — класса В, а маленькие — класса С.

При адресации необходимо учитывать те ограничения, которые вносятся особым назначением некоторых IP-адресов. Так, ни номер сети, ни номер узла не может состоять только из одних двоичных единиц или только из одних двоичных нулей. Отсюда следует, что максимальное количество узлов, приведенное в таблице для сетей каждого класса, на практике должно быть уменьшено на 2. Например, в сетях класса С под номер узла отводится 8 бит, которые позволяют задавать 256 номеров: от 0 до 255. Однако на практике максимальное число узлов в сети класса С не может превышать 254, так как адреса 0 и 255 имеют специальное назначение. Из этих же соображений следует, что конечный узел не может иметь адрес типа 98.255.255.255, поскольку номер узла в этом адресе класса, А состоит из одних двоичных единиц.

Основное назначение multicast-адресов — распространение информации по схеме «один-ко-многим». Хост, который хочет передавать одну и ту же информацию многим абонентам, с помощью специального протокола IGMP (Internet Group Management Protocol) сообщает о создании в сети новой мультивещательной группы с определенным адресом. Машрутизаторы, поддерживающие мультивещательность, распространяют информацию о создании новой группы в сетях, подключенных к портам этого маршрутизатора. Хосты, которые хотят присоединиться к вновь создаваемой мультивещательной группе, сообщают об этом своим локальным маршрутизаторам и те передают эту информацию хосту, инициатору создания новой группы.

Групповая адресация предназначена для экономичного распространения в Internet или большой корпоративной сети аудиоили видеопрограмм, предназначенных сразу большой аудитории слушателей или зрителей. Если такие средства найдут широкое применение (сейчас они представляют в основном небольшие экспериментальные островки в общем Internet), то Internet сможет создать серьезную конкуренцию радио и телевидению.

IP-адрес называют динамическим, если он назначается автоматически при подключении устройства к сети и используется в течение ограниченного промежутка времени, как правило, до завершения сеанса подключения.

Эта форма записи IP-адреса удобна для компьютеров, но неудобна для людей. Запоминать такие адреса трудно. Поэтому существует и другая, более удобная форма записи, называющаяся DNS (Domain Name System). Домен — разделенный точками часть электронного адреса. Например: http://www.ufanet.ru

www.

ufanet.

ru

протокол

программа

имя машины

домен

В данном случае расшифровка этого адреса будет следующая:

· http — Web-страничка в формате HTML;

· WWW — служба World Wide Web;

· ufanet — имя сервера, т. к. любому файлу соответствует своя программа-сервер;

· ru — домен-идентификатор страны, в данном случае России.

Еще пример адреса: http://biro.ufanet.ru

biro.

ufanet.

ru

протокол

имя машины

домен н. уровня

домен в. уровня

Домен нижнего уровня в данном случае указывает на принадлежность к сети Ufanet.

Адрес идет справа налево, справа записывается верхний уровень адреса, слева от него располагаются более низкие уровни. Они разделены точками. Через слэш (косую черту) идут каталоги и подкаталоги. Последний адрес после слэша — имя файла, т. е. загружаемой Web-страницы.

Наиболее распространены следующие суффиксы, определяющие принадлежность домена:

· com — сервер принадлежит коммерческой организации;

· gov — сервер принадлежит правительственной организации;

· edu — образовательные организации;

· org — некоммерческая организация;

· net — сетевая организация;

· mil — военная организация и т. д.

Кроме того, домены часто используют код страны, например:

· ru — Россия;

· fr — Франция;

· de — Германия;

· il — Израиль;

· cn — Китай;

· jp — Япония;

· uk — Великобритания;

· us — США и т. д.

URL «Мегаэнциклопедия Кирилла и Мефодия» в Интернете, выглядит так: http://mega.km.ru. Доменное имя mega.km.ru содержит название ресурса km — это же имя сервера.

Web-сервер — это компьютерная программа, которая обслуживает запроcы на HTML-страницы или файлы. Запросы поступают со стороны клиента (или терминала).

Недавно были введены новые домены верхнего уровня: biz (бизнес), info (информационные издания), museum, aero и др. Они пока немногочисленны, но это вопрос времени.

Адрес какой-нибудь известной в мире фирмы угадать довольно легко. Необходимо написать: www.фирма.com, нажать на Enter и чаще всего Вы попадете именно туда, куда хотели: www.microsoft.com — сайт компании Майкрософт. В России можно набрать www.фирма.ru или www. что-нибудь_интересное.ru и оно, скорее всего, тоже найдется. Например, www.aquarium.ru (другой вопрос, чту найдется на сайте — аквариумные рыбки или рок-группа «Аквариум»). В разных доменах расположены, как правило, разные вещи. Так, серверы games.ru и games.com не имеют абсолютно ничего общего, разве что посвящены одному и тому же вопросу — играм.

2. Поисковые системы и способы поиска информации

World Wide Web (WWW). Приставка http:// означает, что мы адресуемся к всемирной паутине. Расшифровывается это как Hyper Text Transfer Protocol («протокол пересылки гипертекстов»). Если, вводя адрес вручную, вы эту часть пропустите, браузер по умолчанию будет искать именно Web-страницы.

FTP. С приставки ftp:// (File Transfer Protocol — «протокол передачи файлов») начинаются адреса файловых серверов. Эти машины, обладающие очень большой дисковой памятью, постоянно находятся во включенном состоянии и хранят большие объемы информации: программы, мультимедийные файлы, тексты, графику и пр. Обычно эти файлы на сервере запакованы в архив и имеют расширения. zip или.rar или в самораскрывающийся архив с расширением.exe.

Пример адреса в файловом архиве службы FTP: ftp://ftp.kiae.su/pub/.1/windows/ - бесплатные программы фирмы Релком (kiae — название сервера, после домена верхнего уровня идут индексы).

Когда мы заходим на файловый сервер FTP и находим нужную программу, нам предлагают открыть этот файл или сохранить его на нашем компьютере.

Никогда не следует открывать файл, не проверив его прежде антивирусными программами! Его рекомендуется сначала сохранить на своем жестком диске, но, однако, он может иметь размер намного больший, чем указано, и перекачка займет несколько часов. К тому же стоит оборваться связи с Интернетом, как придется начинать все сначала. Для этих случаев предназначены специальные программы-качалки, основное достоинство которых в том, что, в отличие от браузера Internet Explorer, они сумеют после восстановления связи продолжить перекачку с того места, где оборвалась связь.

Электронная почта E-mail. Это — наиболее старая и одна из самых массовых служб Сети. Ее назначение — пересылка писем между пользователями. Для работы с электронной почтой существует специальные программы, например, Outlook Express. Для пересылки и получения почтовых сообщений используются совсем другие протоколы, чем в WWW и FTP, поэтому адрес в электронной почте выглядит примерно так: petr_petrov@rinet.ru (В данном случае rinet — имя провайдера). Если выходить в Интернет по карточке, то личный почтовый адрес электронной почты может выглядеть так: petr_s@.card.ru (домен верхнего уровня - Россия, провайдер обеспечил вход по Интернет-карте). «@» — это английский предлог at (возле, у, при, в) служит для отделения имени пользователя от имен доменов.

Протокол Telnet (приставка telnet://) обеспечивает доступ к удаленному компьютеру в режиме терминала (клиента) и используется для прямого обмена файлами между компьютерами и для запуска программ на удаленном компьютере.

Служба Usenet — телеконференции. Это тоже почтовая переписка. Но если по электронной почте вы отправляете свое письмо какому-то одному лицу персонально, то в телеконференциях письмо направляется одновременно всем ее участникам. В свою очередь, все сообщения, которые поступают в адрес конференции, будут поступать к вам в почтовый ящик и загружаться в компьютер во время сеанса связи. Чтобы стать участником конференции, на нее нужно подписаться: ввести свое имя (или nickname — «кличка, псевдоним») и пароль, чтобы никто другой не мог выступить на конференции под вашим именем. На настоящий момент существует более 50.000 телеконференций на самые различные темы. Например, такие как наука, образование, игры, музыка, разведение рыб, политика, мистика, погода, хобби, литература и прочее. На специальном News-сервере, который есть практически у каждого провайдера, хранится список огромного количества телеконференций.

Вот некоторые темы верхнего уровня:

· comp — компьютеры и программирование;

· news — новости, информация о группах новостей;

· rec - досуг и развлечения (включая спорт, искусство, хобби);

· sci — наука;

· talk — дебаты, дискуссии, споры;

· misc — прочее (поиски работы, предложение услуг и товаров, паранормальные явления и НЛО и пр.);

· alt — альтернативные вопросы (обсуждение всяких странных вещей или необычный взгляд на обычные вещи).

Форумы прямого общения IRC (Internet Relay Chat) — в буквальном переводе — «болтовня» в реальном времени (chat-конференции). На чатах их участники, также, как и в телеконференциях, делятся по тематическим группам, но общение между ними происходит в режиме on-line (реальном времени).

Наиболее распространенные чаты:

· http://www.chat.ru

· http://www.divan.ru

Кроме перечисленных служб в Интернете есть Служба электронной коммерции, Ролевые игры и другие.

Поиск информации в сети осуществляется с помощью поисковых систем разных видов. Самые распространенные рассмотрим подробнее, но для начала выясним, что же такое поисковая система в целом.

Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и являющийся коммерческой тайной компании-разработчика поисковой системы.

Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Улучшение поиска — это одна из приоритетных задач современного Интернета.

Статистика использования браузеров, поисковых систем, каталогов и пр., тенденции пользовательских предпочтений на базе статистики ресурсов, использующих счетчик HotLog.

Поисковая система

Пользователей

Динамика

yandex.ru

53.20%

— 0.33%

google.com

31.89%

— 0.10%

mail.ru

10.36%

+0.31%

rambler.ru

1.45%

+0.04%

images.google.com

0.94%

— 0.03%

images.yandex.ru

0.83%

+0.01%

bing.com

0.79%

+0.05%

yahoo.com

0.27%

+0.05%

nigma.ru

0.17%

0%

qip.ru

0.08%

— 0.01%

icq.com

0.02%

0%

В приведенной таблице выше, динамика — это изменение доли пользователей за 3 месяца.

Данные таблицы представлены от мая 2013 года.

Одним из первых инструментов поиска в интернете (до WWW) был Archie.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — робот, разработанный Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993 г. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 была открыта поисковая машина Яндекс.

В последнее время завоевывает все большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivнsimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией.

Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

Популярные поисковые системы

Всеязычные:

Google (24,9%)

Bing (0,8%)

Yahoo! (0,2%) и принадлежащие этой компании поисковые машины:

Inktomi

AltaVista

Alltheweb

Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами. К ним относят:

· Яндекс (61,3%);

· Mail.ru (8,5%);

· Рамблер (1,9%);

· Нигма (0,3%).

Из перечисленных поисковых систем не все имеют собственный поисковый алгоритм — так QIP.ru используют поисковый механизм Яндекса, Mail.ru использует Google, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.

Описание русских поисковых систем

Большая часть целевых посетителей приходит именно с поисковых систем. Поэтому важно знать некоторые особенности наиболее популярных из них. Так, в РУнете основными являются поисковые системы Яndex, Rambler и Mail.ru.

Yandex.ru

(Упрощенный — http://ya.ru)

Yandex выполняет поиск по российской части Интернета с учетом морфологии русского языка. Имея очень мощный механизм подбора сайтов под запросы, эта поисковая машина помогает найти наиболее подходящие веб-страницы в русской части Интернета. Яндекс ежедневно просматривает сотни тысяч веб-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет. Слово «Яndex» означает «Языковой index», или, если по-английски, «Yandex» — «Yet Another indexer». За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове «Index» перевести с английского первую букву («I» — «Я»), получится «Яndex». Официально поисковая машина Yandex. Ru была анонсирована 23 сентября 1997 года на выставке Softool. Уже тогда поисковик обладал некоторыми преимуществами — возможностью проверки документов на уникальность, учетом морфологии русского языка, возможностью поиска с учетом расстояния (например, при поиске точного словосочетания). Основной отличительной чертой Yandex был тщательно разработанный алгоритмом оценки соответствия ответа запросу (релевантности), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

Согласно данных глобальной статистики рунета, сегодня более 50% поискового трафика генерируется именно этим поисковиком (для сравнения, на долю Rambler’a приходится около 20%, и еще меньше — на долю Google’a).

Rambler.ru

(Упрощенный — http://www.r0.ru)

Этот поисковик, занимающий сегодня второе место среди искалок РУнета, был первой поисковой программой, созданной специально для русской Сети программистом компании Stack Ltd Дмитрием Крюковым. (1996). Слово «Rambler» можно перевести как «праздношатающийся человек», так сказать бродяга по интернету. Rambler постоянно совершенствует свой поисковый алгоритм. Проводятся работы по оптимизации работы системы для точности и актуальности поиска. Как и большинство русских поисковых машин, Rambler учитывает морфологию русского языка. При выдаче результатов влияние оказывает также положение сайта в рейтинге Rambler’s Top100.

Сегодня Rambler является крупным интернет-холдингом, в состав которого входят портал Рамблер, новостная интернет-газета Лента.ру, медицинский сайт Doctor.ru, онлайновый клуб родителей Mama.ru, картографический сервис NaKarte.ru, телекоммуникационное подразделение «Рамблер Телеком».

Aport.ru

Поисковая система «Апорт!» была разработана компанией «Агама» при поддержке Intel и впервые продемонстрирована в феврале 1996 года на пресс-конференции «Агамы» по поводу открытия «Русского клуба». Тогда она искала только по сайту russia.agama.com. Важнейшими свойствами первой версии «Апорта» являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проиндексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале). К концу 1999 года была представлена новая версия Апорт — «Апорт 2000», который стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. «Апорт 2000» практически реализовал две базовых технологии американской поисковой машины Google: учет «ранга сайта» (Page Rank), и обработка запроса, ориентируясь на HTML-код страницы. Среди недокументированных особенностей — больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus. Еще одна особенность Aport заключается в том, что Aport является полнотекстовой поисковой системой. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текста ваших документов может служить критерием последующего поиска. Апорт индексирует как принадлежащие документу, тексты гиперссылок на этот документ с других страниц, находящихся, как внутри сайта, так и за его пределами, а также составленные (или проверенные) редакторами описания сайтов из каталога. Результаты поиска упорядочиваются по частоте употребления искомых терминов. Вместе со ссылкой отображается фрагмент текста, где встречается термин, указывается индекс соответствия запросу и дата последней модификации файла. «Апорт!» очень удобен тем, что в выдаваемом фрагменте текста выделяет красным цветом запрошенные слова.

Нередко для того, чтобы отыскать нужный сайт, пользователи обращаются к каталогам — например, Rambler Top100. Однако каталог — это, конечно, хорошо, но далеко не всегда пользователя интересует какая-то широкая тематика — кино, музыка и так далее. Значительно чаще пользователь хочет найти в Интернете что-то более конкретное: информацию о творчестве М. Ю. Лермонтова; личный сайт актера, певца, музыканта, режиссера; гражданский кодекс РФ и так далее. Что делать в этом случае, ведь в Rambler нет отдельного раздела каталога с сайтами, посвященными творчеству М. Ю. Лермонтова или спецификации клапанов типа Г57? Вот как раз в подобных случаях и нужно пользоваться поисковыми системами, в которых, как гласит рекламный слоган самой популярной российской поисковой системы Яndex, «Найдется все!». Но прежде чем начать работать с поисковой системой, сначала необходимо хотя бы в общих чертах понять, как именно она работает, точнее, что именно она ищет и в какой последовательности выводит результаты поиска. Потому что поиск в Интернете, при всей его кажущейся простоте, — это своего рода искусство. Чем лучше вы будете понимать, как составляются поисковые запросы и как на них реагируют поисковые системы, тем быстрее вы будете находить то, что вам нужно. С другой стороны, если о поиске в Интернете не знать ничего, то можно сутками перелопачивать тонны сайтов, так и не найдя то, что вас интересует. Многие пользователи почему-то считают, что в ответ на их вопрос поисковая система начинает быстро-быстро проверять весь Интернет, после чего выдает список страниц, где отыскалось что-то похожее на строку поиска, введенную пользователем. Разумеется, в действительности все происходит совершенно не так, потому что если бы поисковая система при каждом запросе проверяла весь Интернет (или даже его маленькую часть), ответа приходилось бы дожидаться годами.

На самом деле почти каждая поисковая система (классическая поисковая система) состоит из трех основных компонентов:

1) веб-паук (web spider);

2) индексатор;

3) алгоритм поиска и оценки результатов.

Веб-паук, несмотря на всю экзотичность подобного названия, — это всего-навсего специальная программа, которая запускается на компьютере (компьютерах), подключенном к Интернету, и ее основная задача — проверять весь этот Интернет (точнее, интернетовские странички) во всех возможных направлениях. Ведь странички состоят из гиперссылок, так вот паук носится как угорелый по гиперссылкам «паутины» сайтов и скачивает полученные таким образом странички для второй компоненты — индексной базы.

Индексатор — это обработчик скачанных веб-пауком страниц. Он извлекает оттуда все слова и складывает их в поисковую базу (индексную базу). При этом индексатор записывает, где именно было найдено то или иное слово, и эта информация потом используется в поиске.

Алгоритм поиска — это главное ноу-хау любой поисковой системы. От алгоритма зависит эффективность полученного результата-то есть насколько быстро и точно пользователь найдет то, что его интересует. Внимание! Таким образом, когда пользователь вводит свой запрос, поисковая система ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.

Для хорошей работы поисковой системы важны все три компоненты. Причем каждая из них на самом деле весьма сложна, и ее работа подчиняется огромному количеству всевозможных правил, которые к тому же постоянно корректируются.

Поисковик должен иметь и шустрого паука, и мощную индексную базу, и эффективный алгоритм поиска — только тогда вы будете получать действительно полезные результаты.

Когда говорят о поисковых системах, очень часто упоминают слово «релевантность». «Да ну его, у него поиск нерелевантный!» — говорят об одной поисковой системе. «Отлично ищет, классная релевантность!» — говорят о другой. Таким образом, можно догадаться, что релевантность — это хорошо, а отсутствие релевантности — плохо. Да, именно так и есть!

Релевантность — это степень соответствия документа запросу.

Разберемся, что означает «степень соответствия». Например, вы студент (школьник, аспирант, кандидат, профессор) и вам нужно написать какой-то реферат. Как современный человек, в эпоху процветания компьютерных технологий, вы не собираетесь его писать самостоятельно, а надеетесь найти соответствующий текст в Интернете и выдать его за свой. Не берясь оценивать подобное действо с точки зрения морали, будем рассматривать это просто как пример.

Итак, прежде всего вам нужно найти сайт с рефератами. Вы заходите на поисковую систему и вводите слово для поиска «рефераты». Поисковая система заглядывает в свою индексную базу и видит там ссылки примерно на 7 864 295 страниц, на которых это слово встречается 31 378 327 раз. (Цифры абсолютно реальны и предоставлены поисковой системой Яndex.) Причем это слово присутствует как на страницах сайта «Банк рефератов», так и на страницах какого-нибудь личного дневника. Так какую ссылку пользователь хочет получить первой: на банк рефератов или на страничку этого дневника, где просто употребляется слово «реферат»? Разумеется, на банк рефератов! Вот это и называется — релевантность, то есть степень соответствия запросу.

Каким образом поисковая система может определить эту релевантность, то есть, какие из страничек, где встречается заданная поисковая строка, наиболее интересны и полезны пользователю? В этом как раз и заключается ноу-хау различных поисковиков, однако общий принцип у них достаточно похож, и анализ результатов делается примерно следующим образом:

1. Проверяется, сколько раз заданное слово (словосочетание) встречается на отобранных страничках. Разумеется, чем больше, тем лучше, потому что больше вероятность того, что эти страницы посвящены именно данной тематике.

2. Проверяется расстояние между словами, если введена целая фраза. То есть если пользователь ищет «Герберт фон Караян», то страничка, на которой встречается «Герберт фон Караян родился», будет более релевантной, чем страничка с текстом: «Герберт утром встал, побрился, достал из кармана фон дер пшик, а потом включил Караян по телевизору».

3. Количество ссылок на данную страницу (индекс цитируемости). Чем больше на данную страницу ссылаются (ставят гиперссылку) другие страницы, тем больше вероятность того, что именно эта страница нужна пользователю.

4. Каким шрифтом (стилем) набрана на странице искомая фраза. Фраза, написанная крупным шрифтом (является заголовком) или выделенная жирным — это тоже признак более высокой релевантности данной страницы.

5. Возраст сайта. Чем дольше существует данный сайт, тем лучше это влияет на релевантность.

Таким образом, уровень релевантности — это целый комплекс всевозможных параметров, которые нужно не только получить и сохранить в поисковой базе, но и правильно интерпретировать.

Существует несколько простых правил поиска информации в Интернет. Следует ими воспользоваться, чтобы поиск не составил труда.

1. Пишите грамотно слова поискового запроса.

Многие люди не могут найти сайты с нужной им информацией, т. к. слово для поиска введено с ошибкой. Поисковик протирает жесткие диски до дыр, пытаясь отыскать «ателье по срочному пошиву польтов», тогда как в ателье польты никто не шьет, а шьют пальто.

2. Используйте синонимы.

Если поиск нужных результатов не принес, попробуйте переформулировать запрос, используя синонимы. Например, вместо «чоппер» напишите «крутой мотоцикл», вместо «тачка» — «автомобиль», вместо «курсовая работа» — «реферат».

3. Уточняйте запрос.

Чем точнее будет построен поисковый запрос, тем больше шансов, что в первых строках результата поиска будет нужный вам ресурс. Поэтому если вы ищете уже упоминавшуюся технологию вышивания крестиком по молочным бидонам, просто напишите это в строке поиска. Если результат вас не удовлетворит, тогда уже начинайте варьировать строку.

4. Используйте ключевые слова.

Если результат поиска вас не удовлетворил, включайте в поисковый запрос как можно больше уточняющих слов. Если вас интересует именно творчество А. С. Пушкина, то в поисковой строке кроме непосредственно имени великого писателя обязательно введите слово «творчество». Если вы ищете информацию по автомобилю Honda — так и пишете «автомобиль Honda», а не просто «автомобиль».

5. Не пишите запрос в верхнем регистре.

Все запросы желательно писать в нижнем регистре, потому что поиск обычно регистрозависимый, и строку «ПЯТЬ МИЛАНСКИХ КАФЕДРАЛЬНЫХ СОБОРОВ» вам найдут только в том случае, если она где-то на сайте набрана заглавными буквами. Однако если вы ищете какие-то имена собственные — например, группу «Черный кофе», а не продукт питания черный кофе, — тогда пишите их с заглавных букв (именно с заглавных, а не все заглавными).

6. В сложных случаях используйте язык запросов.

Практически все поисковые системы поддерживают так называемый язык запросов, позволяющий задавать мощнейшие комбинации различных критериев поиска. Но язык запросов — это отдельная тема, поэтому мы ее рассмотрим в следующем параграфе.

Предположим, вы хотите задать поисковой системе запрос следующим образом: «Найди мне все страницы, где встречается слово „селедка“, при этом в любом случае отсутствует слово „картошка“, не более чем через два слова от „селедки“ расположено слово „водка“, чтобы сайт при этом находился в зоне ru и сам документ при этом ссылался на www.exler.ru». Хороший запросик, правда? Между тем вы совершенно спокойно можете составить подобный запрос, используя специальные символы в строке поиска, которые и называются языком запросов.

1. Исключение/включение определенных слов — знаки «+» и «-»

Предположим, вы хотите найти сайты, на которых есть анекдоты про блондинок, но при этом вы не выносите анекдоты, в которых злые люди блондинок называют дурами. Тогда в запросе пишете следующее: «+анекдот +блондинка — дура» — это означает команду искать страницы, на которых в обязательном порядке присутствуют слова «анекдот» и «блондинка», однако отсутствует слово «дура».

2. Перечисление альтернатив — знак «|»

Вертикальная черта позволяет задать альтернативы: система ищет хотя бы одно из перечисленных слов. Например, если вы хотите найти страницы, где встречается одно из слов «папа», «мама», «дочка», «внучка», поисковый запрос будет выглядеть следующим образом: «папа | мама | дочка | внучка».

3. Поиск точного соответствия — знак «!»

Обычно поисковики ищут все словоформы введенного слова, даже если оно задано полностью: например, если в строке введено «блондинка», то первыми будут выведены страницы, где встречается именно «блондинка», но далее в результатах поиска окажутся «блондинки», «блондинкой», «блондинкою», «блондинкам» и так далее. Однако если вам нужно найти только данную конкретную форму — «блондинка», — тогда задавайте поисковую строку так: «! блондинка».

4. Поиск точной фразы — кавычки

Если вам нужна точная фраза «гипервизионный квазиконвертер», а не «гипервизионный анализатор, включающий в себя темно-зеленый квазиконвертер в пупырышках», тогда при поиске заключите фразу в кавычки: «гипервизионный квазиконвертер», и в этом случае поисковик выведет только те страницы, где эти слова располагаются строго рядом.

5. Задание расстояния между слов — «/n»

В случае, когда вы хотите найти все варианты фразы «высокая [любое слово] блондинка» — можно отразить это неуемное желание в поисковом запросе с помощью знака «/», означающего «не превышало», и числа, показывающего допустимое количество слов, причем 1 — это значит отсутствие слов. Например, запрос «высокая /+2 блондинка» означает команду искать все сочетания, где между «высокая» и «блондинка» не больше 1 слова. То есть «высокая блондинка» — подойдет, «высокая длинноногая блондинка» — тоже подойдет, а «высокая длинноногая и страстная блондинка» — уже нет. Значок «+» означает, что слово (слова) должно быть справа, а «- «- слева. То есть запрос «высокая /(-2 4) блондинка» означает, что «высокая» должно находиться от «блондинка» в интервале расстояний от 2 слов слева до 4 слов справа.

6. Ограничение по адресам — команда «#url»

Если вас интересует поиск, например, только на конкретном сервере или по конкретной группе адресов либо же, наоборот, поиск, который исключает конкретные адреса или группы адресов, можно воспользоваться командой #url=" адрес или группа". Например, если вы хотите найти все страницы, на которых встречается слово «квадроид», исключив сайт www.kvadroid.ru, дайте следующую команду: «квадроид ~~#url= „www.kvadroid.ru“».

7. Поиск ссылок — команда «#link»

Иногда (особенно это бывает актуальным для владельцев собственных страничек) бывает очень интересно узнать, какие сайты ссылаются (ставят гиперссылку) на тот или иной адрес. В этом случае достаточно в строке поиска задать следующие данные: «#link=» адрес"". То есть команда «#link= „www.exler.ru“» покажет все страницы, где стоят ссылки на http://www.exler.ru/

Здесь перечислены только основные возможности языка запросов поисковой системы Яndex. Отмечу, что эти параметры, как правило, весьма похожи и в других поисковых системах, хотя в любом случае перед их использованием желательно посмотреть описание на конкретном поисковике.

Также следует иметь в виду, что практически каждый поисковик позволяет создавать довольно сложные запросы с помощью специальной формы под названием «расширенный поиск», для работы с которой вам уже не нужно знать, как именно работает язык запросов в данном поисковике.

Для обобщения выше сказанного, хотелось бы определить базовый алгоритм поиска.

Прежде всего, нужно определить к какому разделу относится искомая информация.

Определите, какую именно поисковую машину лучше использовать. Учитывайте её специфику.

Выявите основные слова (или словосочетания), которые характерны для той информации, которую ищите. Попробуйте выявить ключевые слова.

Задавая отдельные слова и фразы, учитывайте язык запросов, операторы поиска, логические связки искомых слов и т. п. элементы, которые делают поиск значительно более эффективным.

Если вам известна точная фраза из искомых материалов, используйте её как цитату.

После проведения предварительного поиска (или первой ступени поиска), если выдано довольно большое количество документов, воспользуйтесь элементом уточнения: «Искать в избранном». При этом задание поиска следует обязательно уточнить, введя хотя бы одно новое слово или ограничение, которое по вашему мнению поможет провести правильный отбор требуемого материала.

Грамотно располагайте материал и проводите его сортировку по удобным для вас признакам. Это заметно ускорит последующую обработку материала.

Фиксируйте все интересные для вас найденные адреса документов в Интернете (например, с помощью программы Блокнот). Затем выберите среди них нужные адреса, для выполнения конкретной работы.

3. Способы скачивания информации в сети Интернет

Передача файлов может осуществляться с помощью разных интернет-служб.

Во-первых, пересылать файлы по Интернету можно с помощью программ электронной почты в качестве приложений к письмам.

Во-вторых, загружать файлы можно с помощью специальных FTP-программ. Обычно FTP-программы используются при работе с FTP-серверами. Например, при обновлении своей Web-страницы, расположенной на сервере провайдера.

В-третьих, файлы можно скачивать на свой компьютер с различных сайтов. Самым простым примером скачивания файлов является просмотр Web-страниц. Ведь страница состоит из конкретных файлов, ее составляющих: HTML-файла, изображений и пр. При просмотре Web-страницы все эти файлы загружаются на ваш компьютер, особенно, наиболее часто, загружаются графические объекты.

Графические объекты

Наиболее распространенными в Интернете графическими объектами являются GIFи JPEG-файлы. Методы сжатия, используемые в них, позволяют размещать на Web-страницах изображения высокого качества и (что очень важно) небольшого размера. Рассмотрим, что можно сделать с графическими объектами Web-страниц. Самое простое действие следующее: часто щелчок мышью на рисунке позволяет загрузить (в этом же или в новом окне) его увеличенную копию. Рассмотреть другие операции с графическими объектами нам поможет контекстное меню этого самого графического объекта. Но в центральной части меню появилась дополнительная группа команд:

· «Показать рисунок» — данная команда актуальна, когда рисунок по каким-либо причинам не загрузился или загрузился некорректно. Возможно, также, что в настройках вашего браузера установлен режим отключения графики, а здесь вы решили сделать исключение и все-таки ознакомиться с рисунками.

· «Сохранить рисунок как» — поможет сохранить изображение на жестком диске.

· «Отправить рисунок по почте» — поможет отправить рисунок товарищу в виде прикрепленного файла к электронному письму.

· «Печать рисунка» — отправляет соответствующую команду принтеру с возможностью настройки параметров печати.

· «Перейти к папке „Мои рисунки“» — эта команда говорит сама за себя. Нужна она, чтобы удостовериться, что данный рисунок отсутствует в папке «Мои рисунки».

· «Сделать фоновым рисунком» — превращает изображение в фоновый рисунок Рабочего стола.

· «Сохранить как элемент рабочего стола» — добавляет его на Рабочий стол как элемент Active Desktop.

Помимо текста и графики, в состав Web-страниц могут входить звуковые и видеофайлы, всяческие текстовые документы в различных форматах (часто на сайтах электронных библиотек), а также архивные и исполняемые (программы) файлы (которые обычно можно найти на всяких бесплатных и не очень сайтах, посвященных программному обеспечению). Рассмотрим, как правильно и безопасно загрузить различные файлы на свой ПК.

Звуковые файлы

Чтобы прослушивать звуковые файлы, ваш компьютер должен быть укомплектован звуковой картой и колонками (или наушниками). Современные браузеры имеют встроенные возможности для воспроизведения звуковых файлов многих стандартных форматов: WAV, MID, MIDI и др.

По способу прослушивания звуковые файлы делятся на 2 типа.

Файлы, которые сначала нужно загрузить на компьютер (сохранить на жестком диске) и только потом воспроизвести, воспользовавшись каким-нибудь имеющимся под рукой проигрывателем. При этом, естественно, уже можно будет отключиться от Интернета. Большинство таких файлов воспроизводятся Проигрывателем Windows Media Player.

Файлы, которые начинают воспроизводиться по мере своей загрузки, — это потоковое аудио. Наиболее часто это файлы формата RealAudio с расширениями RA и RAM. Для их прослушивания нужна программа RealPlayer. Проигрыватель Windows Media воспроизводит файлы потокового аудио форматов ASF и ASX. Еще одной популярной программой для прослушивания потокового аудио (да и видео тоже) является программа QuickTime от компании Apple.

Как правило, потоковое аудио можно встретить на сайтах интернет радиостанций.

Видео-файлы

Видео в Интернете, как и звук, делится на потоковое и то, которое сначала нужно загрузить и только потом воспроизвести.

Наиболее часто в Сети можно найти видеофайлы формата MPEG (Moving Pictures Expert Group — Экспертная группа по движущимся изображениям) и AVI (Audio/Visual Interleave — чередование аудио / видео). Так как видеофайлы имеют намного больший размер, чем аудиофайлы, для их загрузки необходимо намного больше времени. А для воспроизведения потокового видео не помешал бы высокоскоростной канал связи.

Часто качество видео в Интернете довольно низкое из-за того, что Web-дизайнеры пытаются сделать размеры видеофайлов поменьше.

Для воспроизведения видео из Интернета обычно используется Проигрыватель Windows Media Player. Но часто приходится устанавливать дополнительные приложения, такие как RealPlayer или QuickTime. Если вам встретился файл какого-то особенного формата, то, скорее всего, где-то рядом на странице должна быть ссылка на программу-проигрыватель для такого файла. И если у вас не вызывает никаких подозрений производитель, то имеет смысл сначала загрузить проигрыватель, а уже потом и сам файл.

Если ссылка, на которой вы щелкнули, ведет к объекту, который не распознается браузером, то, по-видимому, вам необходимо загрузить какой-нибудь подключаемый модуль или так называемый элемент ActiveX. Часто браузер самостоятельно разбирается, чего именно ему не хватает, и на экране появляется окно с запросом, нужно ли загружать недостающий модуль.

Загружаем документы и программы

Современные браузеры могут самостоятельно загружать файлы из Интернета и сохранять их на жесткий диск вашего компьютера. В общем-то, скачивать файл с помощью браузера — самый простой, но несколько неудобный способ. Лучше воспользоваться какой-нибудь специальной программой для скачивания.

Самый простой способ загрузки нужного файла — просто щелкнуть на ведущей к нему ссылке мышью. Часто эта ссылка так и называется — «Загрузить» (или Download, если по-английски). Можно также воспользоваться пунктом «Сохранить объект как» контекстного меню. Если вы доверяете этому сайту, то вполне можете нажать кнопку «Сохранить». Затем нужно будет указать папку, в которой вы хотите его расположить. Сохраняемый на диск объект упакован в ZIP-архив. Подавляющее большинство файлов хранится в Интернете в сжатом виде. Поэтому, прежде чем что-то скачивать, есть смысл позаботиться о программе-архиваторе.

Окно загрузки — в данном окне можно узнать информацию о скорости загрузки (6,05 Кb/s), размере загружаемого файла (359 Кb), количестве скопированных на данный момент данных (52,4 Кb, то есть 15%), а также, сколько времени осталось до конца загрузки (50 с).

Если не установить флажок «Закрыть диалоговое окно» после завершения загрузки, то после завершения загрузки станут доступны кнопки «Открыть» (открывает загруженный файл) и «Открыть папку» (открывает папку с загруженным файлом).

Показать весь текст
Заполнить форму текущей работой