Помощь в написании студенческих работ
Антистрессовый сервис

Метод распознавания образов

РефератПомощь в написанииУзнать стоимостьмоей работы

Каждому лингвистическому объекту, подвергаемому анализу в целях стилистической диагностики, ставится в соответствие математический объект p, характеризуемый n-мерным вектором, где n — число параметров. Описаниями классов на языке параметров являются их эталоны — точки, равноудаленные от точек, соответствующих объектам, принадлежащим каждому из классов. Описание объектов атрибуции на языке… Читать ещё >

Метод распознавания образов (реферат, курсовая, диплом, контрольная)

Впервые применение методов распознавания образов для атрибуции анонимных и псевдонимных произведений было описано в 1990 г. в монографии М. А. Марусенко [7].

В данной работе текст рассматривается как сложный лингвистический объект, который можно описать широким набором элементов с помощью.

многоуровневого анализа. В основе данного метода определения авторства анонимных и псевдонимных произведений лежит принцип многомерного статистического анализа, а именно теория распознавания образов.

В терминах распознавания образов индивидуальный авторский стиль рассматривается как структурная синтаксическая категория. Стиль выражается, прежде всего, в синтаксисе языка: наборе конструкций, их расположении и взаимосвязи, представляющей общее целое. Таким образом, стиль определяется как «набор свойств (параметров), характеризующих состав, способы объединения и статистико-вероятностные закономерности употребления речевых средств, образующих данную разновидность языка» [7, с. 17−18]. Набором свойств, характеризующих структуру текста в синтаксическом аспекте, становится в данном случае совокупность информативных параметров, чей состав определяется путем выполнения специальной процедуры отбора информативных параметров для каждого конкретного случая.

Процедура атрибуции разделяется на три этапа [8, с 7]:

  • 1. Формирование литературно-критической атрибуционной гипотезы, которое выполняется методами традиционного филологического анализа;
  • 2. Поверка литературно-критической гипотезы с помощью средств теории распознавания образов.
  • 3. Интерпретация результатов проверки атрибуционной гипотезы.

Гипотеза считается статистически подтвержденной, если результаты распознавания согласуются с исходной литературно-критической атрибуционной гипотезой (при установленном уровне значимости). В противном случае гипотеза считается опровергнутой, и проверяется либо альтернативная гипотеза, либо переформулированная исходная гипотеза [9].

При реализации такой схемы атрибуции статистико-вероятностные методы анализа языка и стиля используются лишь в качестве вспомогательных средств для проверки исходной атрибуционнной гипотезы. Соответственно результаты анализа зависят от обоснованности данной гипотезы, методы распознавания образов лишь устанавливают наличие или отсутствие статистически значимых различий между атрибутируемым текстом и корпусом текстов предполагаемого автора.

Проверка литературно-критической гипотезы происходит в несколько этапов с использованием определенного комплекса процедур в строгой последовательности [8, с 8−17]:

1. Определение априорного алфавита классов Состав априорных классов определяется требованиями временной и жанровой однородности, а объем измеряется в основных единицах синтаксиса — предложениях. При необходимости возможно уточнение априорного алфавита классов, формируется рабочий алфавит классов.

2. Определение априорного словаря параметров.

Определяется полный перечень параметров, характеризующих тексты, для которых разрабатывается система. Включаются параметры, необходимые и достаточные для полного описания классов на языке данных параметров. Единицей параметрического описания априорных классов является предложение.

3. Описание классов из априорного алфавита классов на языке параметров из априорного словаря параметров.

Каждому лингвистическому объекту, подвергаемому анализу в целях стилистической диагностики, ставится в соответствие математический объект p, характеризуемый n-мерным вектором, где n — число параметров. Описаниями классов на языке параметров являются их эталоны — точки, равноудаленные от точек, соответствующих объектам, принадлежащим каждому из классов. Описание объектов атрибуции на языке априорного словаря параметров происходит с помощью ручного анализа данных.

4. Определение информативного набора параметров.

Этот этап атрибуции заключается в выделении из имеющегося информационного параметрического пространства необходимого и достаточного числа параметров для отнесения объекта к классу, благодаря чему удаляются лишние параметры. Процедура свертывания параметрического пространства производится путем обработки корреляционной матрицы связей параметров. Содержательным критерием информативности набора параметров служат слабая корреляция информативных параметров между собой и их сильная корреляция с остальными параметрами, не входящими в данную группу. Таким образом, вычисляются средняя внутригрупповая корреляция параметра, средняя внегрупповая корреляция параметра и значение критерия его эффективности.

Для определения информативного набора параметров проводится описание априорных классов на языке параметров из априорного словаря параметров. Случайным образом формируются выборки объемом 100 предложений каждого априорного класса. Выбор информативных параметров предполагает разбиение априорного набора параметров на два подмножества: релевантных и нерелевантных для различения априорных классов параметров. Релевантность определяется по t-критерию Стьюдента, пороговое значение которого равно 1,96 (при уровне значимости = 0,05).

5. Определение объема выборки При определении координат распознаваемых объектов желательно провести сплошное статистическое обследование, т.к. распознаваемые объекты зачастую имеют небольшой объем авторского текста. Для определения координат эталонов классов, наоборот, целесообразно применить выборочный метод, если позволяют объемы тестов априорных классов. Объем выборки.

определяется выборочным средним значением признака для совокупности, выборочным средним квадратичным отклонением, долей отбора и стандартной ошибкой оценки среднего совокупности.

6.Детерминированный алгоритм распознавания Алгоритм распознавания предусматривает двухступенчатую процедуру распознавания: детерминированное и вероятностное. В качестве функции детерминированного алгоритма используется t-критерий Стьюдента, критическое значение которого при а=0,05 равно 1,96. Соответственно, если для параметра значение t-критерия при сравнении двух объектов меньше 1,96, то можно с вероятностью 0,95 говорить о принадлежности данных объектов к одному классу и наоборот. Используя выбранные с помощью такого метода параметры, можно составить решающее правило детерминированного алгоритма. Если объект по всем информативным параметрам относится к классу A и не относится к классу B, то он относится к классу A и наоборот. Если же для данного объекта по всем параметрам получен «отказ» или есть хотя бы два параметра, по одному из которых объект относится к классу A, а по другому к классу B, то результатом будет отказ от распознавания и остановка детерминированного алгоритма. Далее в действие вступает вероятностный алгоритм.

7. Вероятностный алгоритм распознавания.

Здесь в качестве функции расстояния между объектами в многомерном параметрическом пространстве и априорными классами используется взвешенное евклидово расстояние. Принадлежность объекта атрибуции одному из априорных классов определяется на основе вероятностного подхода.

8. Интерпретация полученных результатов.

Подтверждение или опровержение первоначальной литературно-критической гипотезы, проверка альтернативных гипотез.

Показать весь текст
Заполнить форму текущей работой