Помощь в написании студенческих работ
Антистрессовый сервис

Оценка вычислительной сложности алгоритма обнаружения сведений, конфиденциального характера

РефератПомощь в написанииУзнать стоимостьмоей работы

Первый тест состоял в оценке полноты обнаружения сведений конфиденциального характера. Данный показатель характеризует способность СЗИ обнаруживать все релевантные документы. При его выполнении были выбраны 250 документов содержащих сведения конфиденциального характера. Результаты тестирования представлены на графике (рис. 5): В качестве базы для проведения эксперимента по оценке качества… Читать ещё >

Оценка вычислительной сложности алгоритма обнаружения сведений, конфиденциального характера (реферат, курсовая, диплом, контрольная)

Для оценки вычислительной сложности алгоритма введем следующие параметры:

— количество слов в предложении;

— количество правил в базе знаний;

— количество предложений в тексте.

Первым шагом работы алгоритма является поиск словоформ одного предложения проверяемого текста в хэш-таблице. Вычислительная сложность первого шага оценивается следующим образом:

(1).

На втором шаге осуществляется поиск предложений в БЗ ИС посредством битовых операций над строками матрицы. Вычислительная сложность второго шага оценивается следующим образом:

(2).

Таким образом, итоговая оценка вычислительной сложности алгоритма обнаружения сведений, конфиденциального характера во всем тексте электронного документа оценивается следующим образом:

(3).

Оценка показателей качества обнаружения сведений конфиденциального характера

Методы и алгоритмы, применяемые в DLP-системах, идентичны специальному математическому обеспечению, используемому информационно-поисковыми системами. Учитывая связь подобных систем с информационным поиском, для оценки показателей качества обнаружения сведений конфиденциального характера, целесообразно использовать показатели полноты и точности [7].

Значение показателя полноты определяется формулой:

(4).

где.

— количество обнаруженных системой документов, содержащих конфиденциальные сведения;

— количество не обнаруженных системой документов, содержащих сведения конфиденциального характера.

При — все документы обнаруженные системой содержат сведения конфиденциального характера, то есть «ошибки второго рода отсутствуют». Значения показателя полноты находятся в диапазоне значений .

Значение показателя точности определяется формулой:

(5).

где.

— количество обнаруженных системой документов, содержащих конфиденциальные сведения;

— количество не конфиденциальных документов обнаруженных системой и идентифицированных как сведения конфиденциального характера.

При — все документы обнаруженные системой содержат сведения конфиденциального характера, то есть «ошибки первого рода» отсутствуют. Значения показателя точности находятся в диапазоне значений .

В качестве результирующего показателя оценки алгоритма, позволяющего найти баланс между показателями полноты и точности, была выбрана F-мера (мера Ван Ризбергена) [7]:

(6).

Здесь.

,.

Где. Для оценки качества выбраны одинаковые веса показателей полноты и точности посредством установки параметров, или. При этом выражение (6) упрощается:

(7).

Для оценки качества обнаружения сведений конфиденциального характера в электронных документах разработанного математического обеспечения были реализованы две серии тестов. С целью сравнительной оценки полученных результатов был сгенерирован словарь ключевых слов и словосочетаний, использующийся в работе вышеописанных СЗИ.

В качестве базы для проведения эксперимента по оценке качества обнаружения сведений конфиденциального характера с применением разработанного математического обеспечения и сгенерированного словаря использовалась подобранная коллекция документов:

документы, содержащие сведения конфиденциального характера (300 документов);

документы, не содержащие сведений конфиденциального характера (200 документов).

Первый тест состоял в оценке полноты обнаружения сведений конфиденциального характера. Данный показатель характеризует способность СЗИ обнаруживать все релевантные документы. При его выполнении были выбраны 250 документов содержащих сведения конфиденциального характера. Результаты тестирования представлены на графике (рис. 5):

Рис. 5 Результаты оценки показателей полноты

Второй тест эксперимента состоял в оценке показателя точности обнаружения. Данный показатель характеризует способность СЗИ отсеивать нерелевантные документы, то есть показывает количество ложных срабатываний. Для проведения теста были отобраны 300 документов, содержащих сведения конфиденциального характера и 200 документов, не содержащих конфиденциальную информацию. Результаты тестирования представлены на графике (рис. 6).

Рис. 6 Результаты оценки показателей точности

Таким образом, эксперимент показал, что при использовании разработанного математического обеспечения с использованием технологии баз знаний полнота обнаружения возросла на 15%, а точность на 17%.

Показать весь текст
Заполнить форму текущей работой