Помощь в написании студенческих работ
Антистрессовый сервис

Этапы статического анализа

РефератПомощь в написанииУзнать стоимостьмоей работы

Для решения задачи обеспечения максимального разнообразия обучающей выборки необходимо иметь возможность сравнения файлов. Для этого требуется ввести меру схожести. Пропорциональность. Необходимо соблюдать определенное соотношение между количеством вирусных и «чистых» файлов, из которых отбираются информативные признаки. Статический анализ в общем случае состоит из двух основных этапов: этапа… Читать ещё >

Этапы статического анализа (реферат, курсовая, диплом, контрольная)

Статический анализ в общем случае состоит из двух основных этапов: этапа обучения и этапа использования результатов (обнаружения вирусных программ).

На этапе обучения формируется выборка из зараженных (вирусных) и «чистых» (легитимных) файлов [7, 8]. В структуре файлов выделяются признаки, характеризующие каждый из них как вирусный или легитимный. В результате для каждого файла составляется перечень признаковых характеристик. Далее происходит отбор наиболее значимых (информативных) признаков, а избыточные и нерелевантные признаки отбрасываются. На этапе обнаружения из сканируемого файла извлекаются признаковые характеристики. Они сравниваются с характеристиками, выделенными в процессе обучения; определяется степень их соответствия вредоносному ПО. В случае если степень соответствия выше некоторого порогового значения, файл с некоторой вероятностью признается вирусным. Постановка задачи формирования обучающей выборки Одной из важнейших проблем статических методик является отбор файлов для обучающей выборки [9]. Качество построенного классификатора во многом определяется обучающим множеством. При этом большое значение имеют следующие принципы его формирования:

  • 1. Пропорциональность. Необходимо соблюдать определенное соотношение между количеством вирусных и «чистых» файлов, из которых отбираются информативные признаки.
  • 2. Разнообразие. Файлы, составляющие обучающую выборку, должны репрезентативно представлять все реальное многообразие файлов, встречающихся на практике. Количество файлов схожих по своему двоичному представлению и механизмам действия должно быть минимизировано.

Следование данным принципам приводит к тому, что любое обновление обучающего множества влечет за собой необходимость переобучения классификатора, поскольку добавление файлов в обучающее множество нарушает принцип пропорциональность, а замена файлов — нарушает принцип разнообразия. Поэтому задача формирования обучающей выборки является нетривиальной. Формально она может быть сформулирована следующим образом: необходимо разработать методику отбора из множества файлов F обучающей выборки F? с целью повышения эффективности работы классификаторов: увеличение параметров TP и TN. Под TP понимается число верно классифицированных «легитимных» файлов, а под TN — число верно распознанных вирусов.

Решение задачи Мера схожести файлов.

Для решения задачи обеспечения максимального разнообразия обучающей выборки необходимо иметь возможность сравнения файлов. Для этого требуется ввести меру схожести.

При анализе содержимого файл обычно представляется в виде набора n-грамм (обычно 3- или 4-грамм). Под n-граммой понимается любая последовательность расположенных подряд n байт. Количество n-грамм равно количеству байт в файле минус (n-1). Например, файл длиной 1000 байт состоит из 998 3-грамм.

Определим меру схожести файла, А с файлом В как отношение числа уникальных 3-грамм файла А, которые встречаются в наборе 3-грамм файла В, к количеству уникальных 3-грамм файла А:

с.

Этапы статического анализа.

гдемножество n-грамм файла A, -множество n-грамм файла B.

Этапы статического анализа.

Величина и характеризует количество уникальных n-грамм файла А, входящих во множество уникальных n-грамм файла B. Если ни одна из n-грамм файла A не входит в файл B, то с (A, B) = 0. Если все n-граммы файла A входят в файл B, то с (A, B) = 1.

Этапы статического анализа.

Следует отметить, что в общем случае с (A, B)? с (B, A). Например, файл A может представлять собой исполняемый модуль, состоящий исключительно из подключенных к нему внешних библиотек, а файл B кроме этих библиотек может содержать и некоторый дополнительный функционал. В этом случае, а может существенно отличаться от 1. Файлы A и B считаются взаимно схожими, если с (A, B)? с (B, A). эвристический анализ вирус матрица.

Введенная таким образом мера позволяет построить матрицу схожести для множества файлов F.

Показать весь текст
Заполнить форму текущей работой