Помощь в написании студенческих работ
Антистрессовый сервис

Машинный анализ текстов на естественном языке

РефератПомощь в написанииУзнать стоимостьмоей работы

А — декомпозиция; б — анализ; в — синтез Подводя итог, можно сказать, что текстом является любая цельная и связная последовательность высказываний, объединенных разными типами смысловых и грамматических связей. Следует отметить, что в приведенном определении ничего не говорится о письменном характере текста, т. е. текстом считается как письменное, так и устное сообщение. Единого устоявшегося… Читать ещё >

Машинный анализ текстов на естественном языке (реферат, курсовая, диплом, контрольная)

В результате освоения данной главы обучающийся будет: знать

  • • базовые свойства текстов на естественном языке; уметь
  • • производить разбиение па этапы задач, связанных с обработкой текстов;

владеть

• приемами анализа текста на различных этапах этого процесса.

Тексты на естественном языке. Базовые свойства текстов

Слово «текст» произошло от латинского textus, обозначающего ткань, сплетение, соединение, связь. Указанная этимология, на наш взгляд, очень удачно передает смысл слова «текст» и очень точно выражает три ключевых признака текста — цельность, связность и членимость. Причем первые два признака — цельность и связность — это основные признаки текстуальности.

Цельность отражает смысловое единство текста. Под смысловым единством (когерентностью) текста понимается подчиненность его высказываний одной теме. Маркерами когерентности могут выступать опорные (ключевые) слова, которые описывают содержание текста и помогают быстро, не читая весь текст, узнать его тему.

Связность отражает формальное единство текста. Под формальным единством (когезией) текста понимается порядок, связь, преемственность его высказываний, которая образуется при развитии темы. Маркерами когезии могут выступать вводные слова и указательные местоимения, указывающие на порядок изложения (во-первых, наконец, с тех пор), на повтор (другими словами, а именно, то есть), на противопоставление (однако, тем не менее), на ранее упомянутые объекты (оба, этот, такой).

Проиллюстрируем свойства когерентности и когезии текста на примере отрывка из произведения М. Пришвина «Кладовая солнца»: «Лет двести тому назад ветер-сеятель принес два семечка в Блудово болото: семя сосны и семя ели. Оба семечка легли в одну ямку возле большого плоского камня… С тех пор уже лет, может быть, двести эти ель и сосна вместе растут»[1]. Маркерами когерентности в этом тексте являются ключевые слова «сеятель», «семя», «семечко», «сосна», «ель». Маркерами когезии в этом тексте являются местоимение «оба» и вводное словосочетание «с тех пор».

Рассмотрим такое явление, как кореференция. Кореференция является одним из основных средств, обеспечивающих связность (когезию) текста. Она осуществляет упоминание одной и той же сущности (референта) в различных частях текста с помощью различных обозначений. Таким образом, кореференция помогает удерживать информацию о референте на протяжении всего текста.

Поясним суть кореференции на примере следующего текста: «Иван Алексеевич Бунин — выдающийся русский писатель и поэт. Он является первым лауреатом Нобелевской премии по литературе из России». В приведенном тексте для одной и той же персоны используется несколько кореферентных обозначений: имя (Иван Алексеевич Бунин), род деятельности (писатель и поэт), местоимение (он), характеристика (лауреат Нобелевской премии).

Разрешение кореференций (coreference resolution) — это одна из базовых задач машинной обработки естественного языка. Эта задача не так тривиальна, как может показаться на первый взгляд. Сравните: «Ученица справилась с работой, потому что она легкая» и «Ученица справилась с работой, потому что она умная». С точки зрения машины, синтаксическая структура обоих текстов идентична, но в первом тексте кореференция относится к сущности «работа», а во втором — к сущности «ученица».

Способами выражения кореференции являются:

  • • анафорические ссылки, т. е. специальные указатели на объект. Например: «Пыганы шумною толпою по Бессарабии кочуют. Они сегодня над рекой в шатрах изодранных ночуют» (А. С. Пушкин);
  • • синонимы. Например: «Россия! Русь! Храни себя, храни!» (Н. Рубцов);
  • • гиперонимы. Например: «Герань — одна из любимых цветоводами культур. Растение ценится за свою красоту и неприхотливость»;
  • • ассоциативные отношения. Например: «У леса на опушке жила Зима в избушке… Потолок ледяной, дверь скрипучая, за шершавой стеной тьма колючая» (С. Островой).

Один из популярных способов разрешения кореференций основан на использовании математического аппарата теории графов. Его суть заключается в представлении текста как гиперграфа, вершинами которого являются обозначения сущностей, встречающиеся в тексте, а ребрами — вероятностные связи между этими обозначениями1. В такой постановке задача разрешения кореференций сводится к тому, чтобы выполнить разбиение гиперграфа на подграфы гак, чтобы каждый подграф соответствовал только одной сущности, т. е. содержал обозначения только этой сущности.

На следующем рис. 8.1[2][3] мы изобразили гиперграф, соответствующий тексту: «Президент Путин поблагодарил Ангелу Меркель за ее приезд. Он выразил надежду, что встреча пройдет плодотворно». Пунктирными окружностями выделены подграфы гиперграфа, относящиеся к персоне Владимира Путина и персоне Ангелы Меркель соответственно. Как мы видим, вершина «Ее (приезд)» правильно отнесена к подграфу «Ангела Меркель», и это очень важный результат для систем автоматического извлечения фактов и систем — агрегаторов новостей.

Пример разбиения гиперграфа на два подграфа, соответствующего двум сущностям в тексте.

Рис. 8.1. Пример разбиения гиперграфа на два подграфа, соответствующего двум сущностям в тексте.

Вероятно, вы заметили, что ребра на приведенном в рис. 8.1 гиперграфе помечены числами. Каждое число обозначает приписанный данному ребру вес, который показывает вероятность, что связанные этим ребром вершины (обозначения) принадлежат одному подграфу (сущности). Вероятность складывается на основе множества признаков. Например, одним из таких признаков является совпадение рода, благодаря которому становится ясно, что обозначение «Ее» не может относиться к персоне Владимира Путина, а обозначение «Он» — к персоне Ангелы Меркель.

После того как веса определены, производится разбиение графа. В нашем случае можно не мудрствуя лукаво удалить в гииерграфе ребра, веса которых ниже порогового значения 0,8. Тогда граф сам собой распадется на несвязные компоненты (рис. 8.2). Однако в реальности разбиение гиперграфа на подграфы (компоненты сильной связности) — это сложная математическая и алгоритмическая задача.

Удаление ребер с маленькими значениями весов решило задачу разбиения гиперграфа «естественным» способом.

Рис. 8.2. Удаление ребер с маленькими значениями весов решило задачу разбиения гиперграфа «естественным» способом

Третий ключевой признак текста — членимое гь — означает способность текста делиться на составные части. Составными частями текста могут выступать его линейные сегменты (главы, абзацы, предложения), композиционные части (завязка, кульминация, развязка), смысловые фрагменты (микротемы). В качестве минимальной составной части текста обычно выделяют высказывание (предложение) или слово.

Членимость оказывается весьма полезным свойством при выполнении машинной обработки текста. Именно благодаря свойству членимости компьютер может произвести декомпозицию текста на структурные элементы, каждый из которых затем может быть проанализирован и заново синтезирован вкупе с остальными элементами, но уже не в исходный текст, а в машиночитаемую структуру.

На рис. 8.3 схематично представлен процесс машинной обработки текста «Я Вас любил…». Сначала текст декомпозируется, т. е. делится на слова, затем каждое слово подвергается морфосинтаксическому анализу, позволяющему определить его роль в тексте. В результате анализа выделяются две сущности и одно отношение: субъект (Я), объект (Вы) и предикат (Любить). Эти сущности и отношение объединяются (синтезируются) в единый машиночитаемый триплет. Заметим, что приведенная схема не является идеальной, в частности, она не учитывает тсмпоральность (временность) отношения «любить».

Схема машинной обработки текста «Я Вас любил...».

Рис. 83. Схема машинной обработки текста «Я Вас любил…»:

а — декомпозиция; б — анализ; в — синтез Подводя итог, можно сказать, что текстом является любая цельная и связная последовательность высказываний, объединенных разными типами смысловых и грамматических связей. Следует отметить, что в приведенном определении ничего не говорится о письменном характере текста, т. е. текстом считается как письменное, так и устное сообщение. Единого устоявшегося мнения по этому вопросу среди лингвистов нет. Мы рассматриваем текст именно как письменное сообщение, тем самым отличая его от речи — устного сообщения.

  • [1] Приводится по: Пришвин М. Кладовая солнца: повесть и рассказы. Минск: Народная асвета, 1980.
  • [2] First-Order Probabilistic Models for Coreference Resolution / A. Culotta, M. Wick, R. Hall, A. McCallum // Proceedings of the Conference on Human LanguageTechnology. 2007.
  • [3] Сост. no: First-Order Probabilistic Models for Coreference Resolution/A. Culotta, M. Wick, R. Hall, A. McCallum.
Показать весь текст
Заполнить форму текущей работой