Помощь в написании студенческих работ
Антистрессовый сервис

Категоризация данных на лету

РефератПомощь в написанииУзнать стоимостьмоей работы

Категоризация данных на лету позволяет быстро реагировать на появление новых сайтов, поскольку информация о категории сайта не зависит от его адреса, а только от содержания. Но такой подход имеет и недостатки — необходимо проводить анализ всех передаваемых данных, что вызывает некоторое снижение производительности системы. Второй недостаток — необходимость поддержания актуальных баз категорий для… Читать ещё >

Категоризация данных на лету (реферат, курсовая, диплом, контрольная)

Категоризация сайтов на лету также осуществляется самыми разными способами. Особенно часто используются методы, основанные на статистическом подходе к анализу содержания.

Один из простых вариантов реализации такого решения — использование байесовских алгоритмов, которые себя достаточно хорошо зарекомендовали в борьбе со спамом. Однако у этого варианта есть свои недостатки — необходимо его периодически доучивать, корректировать словари в соответствии с передаваемыми данными. Поэтому некоторые компании применяют более сложные алгоритмы определения категории сайта по содержимому в дополнение к простым способам. Например, компания ContentWatch предоставляет специальную библиотеку, которая выполняет анализ данных согласно лингвистической информации о том или ином языке и на основании этой информации может определять категорию данных.

Категоризация данных на лету позволяет быстро реагировать на появление новых сайтов, поскольку информация о категории сайта не зависит от его адреса, а только от содержания. Но такой подход имеет и недостатки — необходимо проводить анализ всех передаваемых данных, что вызывает некоторое снижение производительности системы. Второй недостаток — необходимость поддержания актуальных баз категорий для различных языков. Тем не менее, некоторые продукты применяют этот подход с одновременным использованием баз категорий сайтов. Сюда можно отнести использование Virtual Control Agent в продуктах компании SurfControl, механизмы определения категорий данных в СКВТ «Дозор-Джет» .

Данные о категории, предоставляемые сайтами

Кроме баз данных адресов и категоризации содержимого на лету существует и другой подход к определению категории сайтов — сайт сам сообщает о том, к какой категории он относится.

Этот подход в первую очередь предназначен для использования домашними пользователями, когда, например, родители или учителя могут задать политику фильтрации и/или отслеживать, какие сайты посещаются.

Существует несколько путей реализации данного подхода к категоризации ресурсов:

  • · PICS (Platform for Internet Content Selection) — спецификация, разработанная консорциумом W3 около десяти лет назад и имеющая различные расширения, направленные на обеспечение надежности рейтинговой системы. Для контроля может использоваться специальное разработанное программное обеспечение, доступное для загрузки со страницы проекта. Более подробную информацию о PICS можно найти на сайте консорциума W3.org (http://www.w3.org/PICS/).
  • · ICRA (Internet Content Rating Association) — новая инициатива, разрабатываемая независимой некоммерческой организацией с тем же названием. Основная цель данной инициативы — защита детей от доступа к запрещенному содержимому. Данная организация имеет соглашения с множеством компаний (крупные телекоммуникационные и компании-разработчики ПО) для обеспечения более надежной защиты.
  • · ICRA предоставляет программное обеспечение, которое позволяет проверять специальную метку, возвращаемую сайтом, и принимать решение о доступек этим данным. Программное обеспечение работает только на платформе Microsoft Windows, но благодаря открытой спецификации существует возможность создания реализаций фильтрующего ПО и для других платформ. Цели и задачи, решаемые данной организацией, а также все необходимые документы можно найти на сайте ICRA — http://www.icra.org/.

К достоинствам этого подхода можно отнести то, что для обработки данных нужно только специальное программное обеспечение и нет необходимости обновлять базы адресов и/или категорий, так как вся информация передается самим сайтом. Но недостатком является то, что сайт может указывать неправильную категорию, а это приведет к неправильному предоставлению или запрещению доступа к данным. Однако эту проблему можно решить (и она уже решается) за счет использования средств подтверждения правильности данных, таких как цифровые подписи и т. п.

Показать весь текст
Заполнить форму текущей работой