Заключение. О поиске сходства интернет-документов с помощью частых замкнутых множеств признаков

РефератПомощь в написанииУзнать стоимостьмоей работы

На результаты синтаксических методов определения дубликатов значительное влияние оказывает параметр «длина шингла». Так в наших экспериментах результаты для длины шингла, равной 10, были существенно ближе к списку дублей РОМИП чем для длины шингла, равной 20, 15 и 5. По результатам наших экспериментов по использованию методов порождения частых замкнутых множеств в сочетании с традиционными… Читать ещё >

Заключение. О поиске сходства интернет-документов с помощью частых замкнутых множеств признаков (реферат, курсовая, диплом, контрольная)

По результатам наших экспериментов по использованию методов порождения частых замкнутых множеств в сочетании с традиционными синтаксическими и лексическими средствами можно сделать следующие выводы.

Методы порождения частых замкнутых множеств представляют эффективный способ определения сходства документов одновременно с порождением кластеров сходных документов.

В экспериментах для всех значений параметров не было обнаружено существенного влияния использования метода «минимальные элементы в n перестановках» на качество результатов. По-видимому, случайности, задаваемой отбором шинглов с помощью метода «n минимальных элементов в перестановке» достаточно на практике. Необходимы дальнейшие эксперименты с использованием различных значений параметров синтаксических методов, и их сравнение с результатами лексических методов, использующих инвертированные индексы коллекций. Необходимо сравнение методов кластеризации использующих замкнутые множества признаков с алгоритмами, основанными на поиске минимальных разрезов вершин (cut) в двудольных графах, в которых множества вершин соответствуют множествам документов и множествам — признаков [Dhillon, 2001, Zhao et al, 2004]. Эти методы родственны, поскольку замкнутые множества документов естественным образом выражаются через минимальные разрезы такого рода двудольных графов.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Приближенные методы. Конструирование и проектирование одежды

Муляжный метод появился много веков назад и до сих пор не утратил своей актуальности. Создание модели одежды и получение разверток ее деталей в соответствии с художественным замыслом осуществляется путем макетирования (муляжирования) изделия на фигуре человека или на манекене. Экспериментальный путь проектирования изделия в «мягкой скульптуре» позволяет достаточно полно учитывать антропоморфные…

Реферат