Ссылочное ранжирование (Page Rank)

РефератПомощь в написанииУзнать стоимостьмоей работы

Наоборот, если со страницы с неким рангом выходит несколько ссылок, разделим ранг страницы между всеми ссылками. Действительно, если президент в своей речи сослался исключительно на вас одного — это серьезное событие. Если же он зачитал список из двухсот имен, среди которых было и ваше, то это тоже почетно, но в меньшей степени. Здесь заложен некий идеологический конфликт между моделью поисковика… Читать ещё >

Ссылочное ранжирование (Page Rank) (реферат, курсовая, диплом, контрольная)

Кроме упомянутых сведений о составе и релевантности текста на самой странице, поисковики анализируют также позицию страницы в общем пространстве Интернета, а именно авторитетность страницы, которую они вычисляют по количеству ссылок на нее с других сайтов.

Опять-таки сама по себе эта идея не новая — она представляет собой автоматизацию довольно старой идеи индекса цитируемости, который используется в научном мире для вычисления авторитета ученого. Идея проста — кого больше цитируют и на кого чаще ссылаются, тот авторитетен, а его работы, очевидно, больше нужны человечеству. Тот же, кого цитируют меньше, человечеству менее интересен.

Поэтому к обычной «текстовой релевантности», основанной на соответствии самого текста страницы запросу, можно добавить «авторитетность» страницы среди других страниц.

Впервые эту идею применили в публичной поисковой машине в конце 1990;х гг. создатели Google — Брин и Пейдж, аспиранты Стэнфордского университета. Для них, конечно, идея научного индекса цитирования была естественной и давно известной.

Именно ссылочный ранг страницы стал основным принципом ранжирования результатов поиска в Google, что привело к резкому отрыву от конкурентов по качеству поиска и стало одной из основных причин доминирования Google в мировом Интернете. Они назвали этот ссылочный ранг Page Rank (ранг страницы), включив заодно в название также и фамилию одного из двух авторов идеи — Ларри Пейджа (Larry Page).

Теоретически идея автоматического использования ссылок для вычисления авторитета страницы выглядит просто: возьмем матрицу всех ссылок всех страниц Интернета друг на друга, т. е. фактически «Интернет в квадрате». Получится матрица гигантских размеров — скажем, двадцать миллиардов на двадцать миллиардов.

Теперь начнем учитывать ссылки страниц друг на друга. Сначала присвоим всем страницам равный вес (ранг). Затем, начиная с какого-нибудь угла этой огромной матрицы, начнем пересчитывать вес страниц и ссылок примерно таким образом: если на страницу ссылается много страниц (т.е. у нее много входящих ссылок), то ранг страницы повышается (по некоторой относительно простой формуле).

Будем также учитывать и ранг ссылок. Если на вас сослался президент в своей ежегодной речи, то это более ценно, чем если бы вас вчера упомянул во дворе дворник.

Итак, при расчете ранга страницы нужно учесть вес каждой входящей ссылки.

Таким образом, если на страницу ссылается очень авторитетный ресурс, то и ранг самой страницы повышается. Правда, если этот авторитетный ресурс ссылается еще на тысячи других страниц (скажем, это каталог Yahoo), то авторитет каталога «размажется» по всем тысячам ссылок и нам от него достанется немного (другими словами, ранг нашей страницы повысится незначительно). Заметим, что после первого цикла пересчета матрицы связей Интернета нам придется вернуться к началу и пересчитать все ранги еще раз, так как ранги страниц, ссылающихся на самые первые страницы (с которых мы начинали), уже изменились. И так придется сделать много повторов пересчета, так называемых итераций.

В ходе разработки алгоритма создателям Google пришлось доказать эргодическую теорему о том, что процесс пересчета матрицы сойдется, как говорят математики. Получается, что на самом деле достаточно пересчитать матрицу всего несколько раз, чтобы ранги страниц уже были относительно стабильны и ими можно было пользоваться в поисковике для расчета релевантности.

Для расчета авторитетности сайта нужно пересчитывать гигантские таблицы ссылок с длиной, равной количеству всех страниц в Интернете.

В настоящее время уже все популярные поисковые машины применяют расчет авторитетности страницы и ссылочный ранг в том или ином виде для расчета релевантности результатов поиска.

В дальнейшем поисковики усовершенствовали идею вычисления авторитетности страницы за счет учета текста на ссылках. Действительно, почти каждая ссылка в Интернете представляет собой какой-то текст (под который и «подложен», собственно, адрес страницы, на которую ссылаются). Естественно учитывать этот текст при расчете ранга той страницы, на которую ведет ссылка. Так возникает ссылочный ранг страницы — ранг, учитывающий тему ссылок.

Для веб-мастера понятие ранга страницы чрезвычайно важно, ибо с помощью управления ссылками, ведущими на сайт и уходящими с сайта, можно влиять на свой ссылочный ранг, и значит, на свое положение в поисковых машинах.

Поисковые машины отличаются друг от друга набором своих возможностей, функциональностью, удобством. Большинство из них — Google, Yahoo, MSN, Яндекс и Рамблер — уже перешагнули границу между простым поисковиком и порталом, они занялись созданием большого количества самых разнообразных сервисов, призванных удовлетворить все потребности любого пользователя и удержать его на портале.

Здесь заложен некий идеологический конфликт между моделью поисковика (когда нужно добиться, чтобы пользователь как можно быстрее ушел с сайта, сразу найдя нужное) и моделью портала (когда хочется удержать пользователя как можно дольше), по, похоже, выбор в пользу «портальности» в мировом масштабе уже сделан.

Даже Google, долгое время сохранявший узкофокусированную модель бизнеса лучшего поисковика в мире и щеголявший строгим дизайном (одна поисковая строка на странице), начал двигаться в сторону «портальности», выпуская множество сервисов в год.

Сейчас практически все поисковики кроме поиска показывают каталог сайтов, погоду, курсы валют, карты, ТВ-программы, киноафишу и пр. В этом смысле сравнивать поисковики между собой совершенно бессмысленно — каждый пользователь выбирает наиболее удобный набор сервисов, и здесь нет товарищей на вкус и цвет.

Что касается собственно поисковых машин в составе этих порталов, то они также могут значительно различаться количеством документов в базе, возможностями поиска в дополнительных базах — картинках, блогах, новостях, энциклопедиях, частотой обновления данных и т. д.

Что лучше? Это в значительной степени зависит от задач пользователя. Тут тоже так много параметров и различных возможностей, что выбор поисковика по душе очень зависит от разных социальных факторов: известности бренда, объема рекламы, удобства и т. п. Другими словами, от того, сколько сил и средств владельцы поисковика вложили в маркетинг, удобство и дизайн.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Экспертные системы, их особенности. Применение экспертных систем

Системы, основанные на знаниях, могут входить составной частью в компьютерные системы обучения. Система получает информацию о деятельности некоторого объекта (например, студента) и анализирует его поведение. База знаний изменяется в соответствии с поведением объекта. Примером этого обучения может служить компьютерная игра, сложность которой увеличивается по мере возрастания степени квалификации…

Реферат