WWW — World Wide Web она же всемирная паутина. Представляет собой распределенную систему предоставляющую доступ к документам расположенных на разных машинах, подключенных к сети Интернет. Но сейчас Интернет — это не только html документы, это всевозможная информация, социальные сети, фотографии, даже документы и наша социальная активность такая как запись ко врачу или обращение в налоговую службу перебирается во всемирную паутину, денежные переводы и покупки давно стали обыденностью. Сейчас слово интернет у всех на слуху и его популярность набирает обороты. Компании Яндекс в 2015 году провела исследование по росту популярности и проникновении интернета в России.
Рисунок 1 — аудитория и проникновение интернета в России Как видно год от года пользователей становится только больше. Что в свою очередь ведет к увеличению нагрузки на популярные ресурсы в Интернете. Для примера данные по посещаемости десяти самых популярных ресурсов Интернета в России.
Таблица 1 — Рейтинг тoп десять Интернет ресурсов в России.
|
Ресурс. | Количество посетителей. |
ВКонтакте. | 50 638 024. |
Одноклассники. | 29 214 397. |
Яндекс Поиск. | 21 074 710. |
Главная страница Яндекс. | 21 015 840. |
Почта Mail.ru. | 16 361 524. |
Яндекс Почта. | 8 924 310. |
Avito. | 7 171 995. |
Яндекс Новости. | 6 350 990. |
Яндекс Картинки. | 4 994 220. |
Ответы Mail.ru. | 4 414 922. |
Данные взяты на момент 20.04.2016 года. Как видно из таблицы что самый «не популярный» ресурс выдает производительность больше 50 запросов в секунду. А если к такому количеству запросов ещё добавить сотни гигабайт информации, которую нужно обработать чтобы выдать конечному пользователю ту информацию, которую он хочет получить.
Для изучения и развития естественных языков используются языковые корпуса, но существует достаточно мало систем позволяющие работать с корпусами с высокой производительностью, так как объем корпуса может превышать сотни гигабайт. Высокая производительностью работы системы необходима для быстрого анализа данных которые находятся в корпусе. На данный момент таких систем очень мало. И передо мной стоит задача разработать именно такую высокопроизводительную систему для работы с языковыми корпусами русского языка.
приложение высоконагруженное русский язык.