Помощь в написании студенческих работ
Антистрессовый сервис

Этапы семантического анализа в соответствии с объектно-атрибутной архитектурой

РефератПомощь в написанииУзнать стоимостьмоей работы

Для совпадения графов необходимо, чтобы ИП из капсул из вершин графа-запроса полностью совпали с ИП из капсул в вершинах графа-текста. Для ускорения поиска подграфа была разработана методика спектра атрибутов. По этой методике происходит подсчет всех атрибутов, встречающихся в ОА-графе, и далее поиск подграфа начинается с тех вершин, в которых обнаружено наименьшее количество совпадений в обоих… Читать ещё >

Этапы семантического анализа в соответствии с объектно-атрибутной архитектурой (реферат, курсовая, диплом, контрольная)

Основой системы анализа является семантико-морфологический словарь, имеющий в своем составе описание лексем. Описание одной лексемы — это ОА-список всех возможных толкований. Каждое толкование лексемы является совокупностью двух по крайней мере связанных между собой информационных капсул (ИК): капсула с описанием морфологических свойств толкования лексемы (падеж, род, число и т. п.) и капсула с семантическими свойствами. При анализе текста происходит поиск лексем в этом словаре, и из найденных описаний формируется ОА-список толкований лексем исходного текста.

Далее осуществляется преобразование данного списка в семантическую сеть (ОА-граф), представляющая собой онтологическую базу знаний, которая сформирована исходя из информации, закладываемойв анализируемомтексте. Преобразование реализуется в несколько этапов отпростогок сложному.

На каждом этапе осуществляется «склейка» второстепенных лексем в словосочетании (синтагме) с лексемой главной.

Например, при анализе первого предложения из фрагмента текста «There is the chair. The chairisblue» описание объекта «chair» попадет в тематический словарь; при анализе же второго предложения для слова «chair» будет найден объект, который уже упоминался в тексте и к нему будет добавлено свойство «blue».

Далее осуществляютсяэтапы анализа синтаксических конструкций с союзами, и заключительный проход — склейка существительных и глаголов. Для анализа смысловых связей между предложениями в ОА-системе применяется так называемый тематическийсловарь. Схема синтеза семантического графа из текста приведена на рис. 7.

Схема построения ОА-графа из списка лексем исходного текстаСалибекя.

Рис. 7 — Схема построения ОА-графа из списка лексем исходного текстаСалибекян С.М., Халькина С. Б., Тиновицкий К. Д. Объектно-атрибутный подход для семантического анализа естественного языка // Объектные системы. 2014. № 1 (8) С.80−86.

Алгоритм преобразования текста в семантический граф задается с помощью правил преобразования (ОА-грамматика), основой которых стали формальные грамматики Хомского. ОА-грамматика в отличие от своего прототипа оперирует не с цепочкой символов, а с цепочкой (списком) капсул с описанием лексем (список исходных лексем) и служит для формирования семантического ОА-графа. Формально ОА-грамматику можно описать как четверку OAG = {A, L, P, G}, где A — алфавит атрибутов; L — алфавит нагрузок ИП (в этот алфавит входят не только числа и строки, но и ссылки на ИК; G — ОА-граф (список описаний лексем исходного языка); P — правила преобразования ОА-графа Там же. С. 84.

Например, для обработки предлога «in» в английском языке применяются правила (цифрами обозначены 1-й и 2-й проходы анализа):

  • 1. in NOUN, temp{Location ={Subj={NOUN*{Location=temp}} Location=in };
  • 2. NOUN1 in*{ Location=temp}, NOUN1*{ Location=temp*{Obj=NOUN1}}; где Location — атрибут места расположениячего-либо, Obj — объект, Subj — субъект.

Рассмотрим в качестве примера предложение с тремя связями: объект, субъект, инструмент.

Так, для предложения «Mikeplayingwithball» будет синтезирован следующий ОА-граф (жирным выделены атрибуты ИП, которые одновременно обозначают семантические роли/валентности):

{ Object = Mike.

Subject = { Object = ball.

with Subject, temp{Location ={ Subject ={Subject *{Location=temp}} Location=with}.

}.

Act = playing.

}.

Для совпадения графов необходимо, чтобы ИП из капсул из вершин графа-запроса полностью совпали с ИП из капсул в вершинах графа-текста. Для ускорения поиска подграфа была разработана методика спектра атрибутов. По этой методике происходит подсчет всех атрибутов, встречающихся в ОА-графе, и далее поиск подграфа начинается с тех вершин, в которых обнаружено наименьшее количество совпадений в обоих ОА-графах. В ОА-графе используются двусторонние связи между узлами для того, чтобы можно было произвести обход графа начиная с любой его вершины. Таким образом, удастся значительно снизить число переборов во время поиска (рис.8).

В настоящее время требуется расширение семантико-морфологического словаря и увеличение числа правил обработки списка лексем. В результате данной работы будет возможность обработки ОА-системой адаптированных текстов.

Показать весь текст
Заполнить форму текущей работой