Помощь в написании студенческих работ
Антистрессовый сервис

Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов

РефератПомощь в написанииУзнать стоимостьмоей работы

В интересах оптимизации систем автоматизированного анализа текстов, потребность в которой вызвана ростом объемов информации, подлежащей обработке, может представляться необходимой реализация комплексного подхода к исследованию целевых текстов. Указанный подход должен актуализировать как количественный, так и качественный анализ тех или иных параметров текстов; на наш взгляд, реализация… Читать ещё >

Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов (реферат, курсовая, диплом, контрольная)

В интересах оптимизации систем автоматизированного анализа текстов, потребность в которой вызвана ростом объемов информации, подлежащей обработке, может представляться необходимой реализация комплексного подхода к исследованию целевых текстов. Указанный подход должен актуализировать как количественный, так и качественный анализ тех или иных параметров текстов; на наш взгляд, реализация качественного анализа может быть осуществлена посредством использования формально-семантического метода. Необходимо, однако, заметить, что, несмотря на активное употребление термина «формально-семантический анализ» в современных исследованиях, не существует сколь-либо четкого определения настоящего термина. В докладе И. В. Азаровой и Е. А. Овчинниковой «Пропозициональное и формально-семантическое описание фактов при обработке текстов на русском языке» отмечено, что «можно говорить о процедуре семантического анализа, состоящей из нескольких этапов.

На каждом этапе создается определенное семантическое описание анализируемых единиц, которое подвергается дальнейшей обработке на следующем этапе" [1: 1]; в соответствии с данными представлениями исследователи предлагают различать 2 базовых этапа семантического анализа — а) выделение пропозиций, которые ставятся в соответствие фразам в пределах анализируемого текста и б) получение формально-семантического описания фактов на основании получаемых пропозициональных структур; описанные этапы определяются докладчиками как пропозициональный и формально-семантический компоненты автоматического анализа текста.

Авторы поясняют, что «пропозициональная структура, формализованная в виде структуры признаков, может быть описана на языке формальной семантики, то есть, в виде формулы» [1: 2]. Иными словами, в цитируемом исследовании предлагается понимать под формально-семантическим анализом описание семантики языковых знаков посредством формул, соответствующих определенному стандарту описания.

Близким к формально-семантическому анализу представляется концепция формально-концептуального анализа (Formal Concept Analysis), описанная в работе «Deriving Concept Hierarchies from Text by Smooth Formal Concept Analysis» коллектива авторов университета Карлсруэ, Германия [5]. Базовым понятием концепции, выстраиваемой авторами, является т.н. «ontology», определяемое как «формальное описание процесса концептуализации» («an ontology is a formal specification of a conceptualization», [5: 1]), частью которой являются идентификаторы концептов, словарный запас языка и т. д.; говоря о лексической реализации концептов, авторы отмечают, что концепт может быть выражен посредством различных высказываний (синонимов), либо одно высказывание может соответствовать различным концептам (что, по мнению исследователей, соответствует полисемии).

Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов.

Определяя формально-концептуальный анализ, авторы комментируют, что главным образом он применяется для извлечения и обработки эксплицитной информации, которая впоследствии структурируется в т.н. формальные абстракции концептов (formal abstractions of concepts). Исследователи указывают, что центральным понятием формально-концептуального анализа является формальный контекст, определяемый как триада (G, M, I), где G — множество объектов, M — множество атрибутов, I — двоичное отношение между данными множествами, называемое сочетаемостью (incidence) контекста. Приведенная дефиниция позволяет авторам определить понятие формального концепта как диаду (А, В), где AG, B? M,. Иными словами, (А, В) является формальным концептом тогда и только тогда, когда множество атрибутов объектов из, А равно множеству В, и, в свою очередь, А является множеством всех объектов, объединенных множеством атрибутов из В. Соответственно, А предлагается определять как внешний аспект концепта, В — как внутренний. Концепты в пределах контекста ранжируются авторами на основании «субконцептуальных и сверхконцептуальных отношений».

По мнению исследователей, основным вопросом, возникающим при попытке применения изложенных выше представлений к тексту, является вопрос о том, что именно надлежит полагать объектами и атрибутами. Наиболее очевидной авторам представляется мысль об извлечении из текста взаимосвязей глаголов и их дополнений; дополнения могут быть ассоциированы с множеством объектов, в то время как соответствующие им отглагольные прилагательные — с множеством атрибутов (к примеру, to rent an apartment — слово apartment будет отнесено к объектам, и ему будет соответствовать атрибут rentable).

Авторы отмечают, что существуют работы, в которых ontology рассматривается в качестве семиотической знаковой системы, вследствие чего возможно сопоставление нескольких ontology на синтаксическом и семантическом уровне, выявление и сопоставление иерархии их концептов. Семантическое сопоставление, в частности, требует от авторов введения понятия semantic cotopy, понимаемого как множество всех субконцептов и суперконцептов и описываемого формулой.

Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов.
Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов.
Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов.

где и принадлежат множеству концептов С.

Реализация описанных представлений позволяет исследователям произвести формальную кластеризацию слов в тексте по признаку их контекстуальной сочетаемости, выстраивая таким образом искомую ими иерархию концептов.

Понятие иерархии становится ключевым также в иных подобных исследованиях, в частности — в работе «A Formal Text Representation Model Based on Lexical Chaining» [6] группы ученых университета Билефельда, Германия. Авторы рассматривают вопросы, связанные с разработкой формальной модели представления текста, привлекая два различных подхода — изучение лексических последовательностей (lexical chaining) и квантитативный структурный анализ. Формальная модель лексических последовательностей выстраивается в настоящем исследовании на основании т.н. логической структуры документа и иерархии элементов содержимого (hierarchy of content objects).

Надлежит констатировать, что в работе А. Н. Баранова «Введение в прикладную лингвистику» [2] представлен корректный комментарий, описывающий современные системы машинного понимания текстов: «Понимание высказываний (системой автоматизированного анализа. — Н.Г.) предполагает два основных этапа — анализ и интерпретация… Особенности построения систем поддержки диалога с ЭВМ таковы, что часто граница между синтаксическим и семантическим анализом почти отсутствует». Действительно, описанные выше исследования немецких авторов позволяют сделать вывод о том, что современные исследования в области формализации семантики нередко фактически сводятся к дистрибутивному анализу, т. е. к выявлению характера сочетаемости слова и определению физических контекстов, в которых оно может употребляться; не отрицая ценности данного подхода, необходимо отметить, что исследование физического контекста не может рассматриваться как полноценное средство выявления и описания семантики языкового знака.

Замечания о соотношении синтаксического и семантического анализа представлены, в частности, в статье М. Селфридж «Интегральная обработка обеспечивает надежное понимание» [3]. Автор поясняет, что построение надежного интерфейса на естественном языке между машиной и пользователем требует определения двух разновидностей отношений: между синтаксисом и семантикой, а также между пониманием языка и обработкой памяти. Не касаясь второго отношения как внутримашинного, обратимся к вопросу о синтаксисе и семантике в понимании исследователя.

Резюмируя умозаключения Р. Шенка и Л. Бирнбаума, М. Селфридж формулирует следующие основные вопросы: 1) обрабатывается ли синтаксическая структура раньше семантической, или их анализ производится единовременно и 2) разделены ли процессы обработки синтаксиса и семантики, или их обработка составляет единый процесс. Существуют 2 различные точки зрения на эти вопросы, условно называемые «сепаратистской» («разъединительной») и «интегральной». Согласно первой позиции, «синтаксический анализ высказывания осуществляется до любого вида семантического анализа, а на его выходе мы получаем синтаксическое описание высказывания. Это описание затем подается на вход семантического анализа; в свою очередь, интегральная концепция гласит, что данные типы анализа надлежит проводить синхронно. Ответ же на второй поставленный вопрос с точки зрения «разъединительной» концепции подразумевает отличие механизма, строящего синтаксическое описание, от механизма, конструирующего семантическое описание (т.е., комментирует автор, эти механизмы работают по различным алгоритмам); в свою очередь, интегральные представления предполагают использование единого механизма, выполняющего как семантический, так и синтаксический анализ. Р. Шенк и Л. Бирнбаум придерживаются второй концепции, формулируя т.н. гипотезу об интегральной обработке. По мнению М. Селфридж, указанная гипотеза не утверждает тождественности синтаксического и семантического знания, так что при разработке авторской концепции понимающей машины исследователь считает необходимым обрабатывать синтаксис и семантику единовременно и посредством единого механизма, но при этом разграничивать их не на основании процессов обработки, но на основании знаний — иными словами, поясняет автор, «различие между синтаксисом и семантикой кроется в специфике знания, представляемого в соответствующих структурах, а не в порядке их применения и не в процессах обработки» [3].

В ряде работ сам по себе термин «формально-семантический анализ» не употребляется, однако представляется вполне очевидным, что соответствующая проблематика находится в фокусе внимания их авторов. В диссертационном исследовании А. М. Шахмайкина «Некоторые принципы формализации семантики естественных языков (для целей семантической типологии)» отмечается, что формализация не может быть сведена исключительно к использованию логико-математических методов, но также и предполагает однозначное и последовательное использование при анализе всего категориального аппарата семантики — т. е. процедура формализованного анализа состоит, по мнению ученого, «из установления инвентаря семантических признаков и отношений между ними» [4].

Семантическая структура языкового знака представляется автором в виде формулы.

? =.

Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов.

где.

? — языковой знак,.

D — денотат, т. е. класс обозначаемых знаком явлений,.

Dm — денотативное значение (совокупность признаков денотата),.

S — сигнификат, образ, посредством которого кодифицируется денотат,.

Sm — сигнификативное значение, т. е. совокупность сигнификативных признаков знака.

Многие исследователи утверждают, что единообразное и эксплицитное описание семантической подсистемы естественных языков может быть обеспечено исключительно посредством формального языка-посредника, в силу чего насущно необходимой может представляться разработка семантического метаязыка, позволяющего формально описывать семантику языковых знаков; результатом подобного описания будет являться совокупность формул, образующих некоторую систему. По мнению ученого, подобный метаязык надлежит строить отдельно для каждой семантической подсистемы — категорий времени, пространства и модальности. Структура семантического метаязыка принимает вид необходимых и достаточных для описания той или иной конкретной подсистемы элементарных неопределяемых и далее неделимых семантических единиц (множителей) и отношений между ними" [4].

Подводя итоги можно отметить основные элементы. Представляется вполне очевидным, что дефиниция должна содержать указание на процесс формализации. Кроме того, дефиниция подразумевает, что выполняется анализ семантики, т. е. некоторой совокупности значений, приписываемой языковому знаку, а также (возможно) структуры указанных значений. Идеалом данного анализа, безусловно, будет являться полное отделение семантики знака от его синтактики и прагматики, что не всегда достижимо, но может рассматриваться как конечная цель.

Рассматриваемый анализ может производиться как автоматически, так и при участии человека. В данном случае возможны некоторые процессуальные различия: человек может выполнять первичный формально-семантический анализ в интересах создания формальной модели семантики, перемещаясь в направлении от семантики к средствам ее выявления, в то время как автомат вероятнее всего будет использовать данную модель и выполнять обратную работу, двигаясь от средств выявления семантики к ней самой.

Исходя из предыдущей составляющей, необходимо прокомментировать понятие средств выявления семантики. Представляется вероятным, что в фокусе внимания как человеческого исследователя, так и автоматизированного анализатора будут находиться некоторые внешние, эксплицитные параметры языковых знаков или, шире, текстов.

Таким образом, можно сделать вывод о том, что формально-семантический анализ представляет собой процедуру выявления и интерпретации эксплицитно выраженных характеристик языковых знаков, которые позволяют составить представление о сущности и структуре их семантики, и описания полученных данных посредством формул, пригодных для использования в построении математических моделей процессов понимания значений языковых знаков как в пределах физического и идеального контекста, так и вне его.

Показать весь текст
Заполнить форму текущей работой