Введение.
Вероятностные методы сопоставления литературных текстов

РефератПомощь в написанииУзнать стоимостьмоей работы

Введение. Вероятностные методы сопоставления литературных текстов (реферат, курсовая, диплом, контрольная)

лингвистика статистический языкознание программный В современном мире, как научная сфера, так и повседневная жизнь людей невообразима без автоматизированных информационных технологий. На протяжении последних десятилетий их значение стремительно растет. В то время как развитие вычислительной техники и средств коммуникации достигло невероятных успехов, достижения в области смысловой обработки информации несколько скромнее. Это объясняется, прежде всего, тем, что необходимо более глубоко изучить процессы человеческого мышления и формирования речи, а также научиться их моделировать с использованием компьютеров.

В настоящее время поиск решения проблем автоматической обработки текстовой информации на естественном языке представляет особый интерес для ученых. Это объясняется тем, что естественный язык является не только инструментом мышления и общения между людьми, но и универсальным средством накопления, хранения, обработки и передачи информации. Применение естественного языка в системах автоматической обработки информации является областью изучения такой науки, как компьютерная лингвистика.

Компьютерная лингвистика — сравнительно молодая наука: она возникла около шестидесяти лет назад. Однако за недолгий период существования этой науки были достигнуты значительные успехи, получены определенные научные и практические результаты, а именно: предложены инновационные, перспективные методы и идеи, связанные с разработкой различных прикладных программных систем. К сожалению, пока еще не все из них нашли выражение в программных продуктах, применяемых на практике. Именно поэтому в компьютерной лингвистике существует еще множество областей, требующих глубокого изучения, а также дальнейшего применения на практике полученных результатов. Область приложений компьютерной лингвистики постоянно расширяется. Наиболее известными прикладными задачами являются: информационный поиск, классификация и кластеризация текстов, создание словарей, систем машинного перевода текстов с одних естественных языков на другие и систем автоматического анализа устной речи и многое другое.

Данное исследование непосредственно относится к одной из наиболее обширных областей компьютерной лингвистике — автоматической обработке текстовой информации — и посвящено такой проблеме, как выявление сходства между литературной деятельностью поэтов.

Актуальность данной работы определяется необходимостью решения различных задач искусственного интеллекта и в частности усовершенствования существующих методов анализа и сопоставления литературных текстов. Построение математических и компьютерных моделей поэтических текстов может найти широкое применение в различных областях, например, в рекомендательных системах. Так, модель, построенная на основании литературных произведений автора, может быть рассмотрена в качестве модели так называемого авторского «художественного мира». В свою очередь умение сравнивать, анализировать и выявлять сходство между литературными произведениями позволит значительно улучшить качество рекомендаций, получаемых пользователями с помощью рекомендательных систем. Кроме того, определение сходств и различий между авторскими текстами позволит решить проблемы вычисления авторского инварианта, установления авторства анонимных и написанных под псевдонимами текстов, а также выявления плагиата в текстах.

Ввиду того, что подобного рода задачи стали актуальными для искусственного интеллекта не так давно, то в настоящее время пока лишь небольшое число работ посвящено данной проблеме. Одной из наиболее известных является работа ученого В. С. Баевского, результаты которой подробно изложены в его книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы». В. С. Баевский применял статистические методы (частотный анализ, ранговый корреляционный анализ) для анализа литературной ситуации в поэтическом мире в определенные исторические периоды. Другими словами, автор показал, как можно получить статистическое отображение литературных процессов и явлений в области поэзии. Исследование, проведенное В. С. Баевским, сделало возможным нахождение ответов на многие вопросы, которые ставят перед собой не только филологи и ученые — литературоведы, но и обычные любители поэзии. Например, чье творчество ближе к литературной деятельности Блока — Ахматовой или Гумилева? Какова «связь» между творчеством поэтов, представляющих тот или иной исторический период в литературе? Применение достаточно мощного аппарата математической статистики позволяет проводить глубокое исследование историко-литературных процессов и, возможно, с его помощью в ближайшее время станет возможным найти решение такой актуальной проблемы в литературоведении, как определение наличия или отсутствия влияния одних писателей на других, а также вычисление степени этого влияния.

Основными целями данной работы являются выявление сходства между литературной деятельностью русских поэтов, а также определение характеристик, которые могут быть использованы для сопоставления поэтических текстов.

Главными задачами проводимого исследования являются:

§ вычисление частотных характеристик литературных текстов;
§ определение «близости» «художественных миров» поэтов;
§ сопоставление поэтических текстов.

Предметом исследования является вопрос, связанный с определением того, насколько в рамках одного литературного течения «близки» в своем творчестве поэты, которые, по мнению литературоведов, являются представителями акмеизма, имажинизма, символизма и футуризма — направлений в «поэзии серебряного века. В качестве основных инструментов для проведения данного исследования используются частотный анализ и ранговый корреляционный анализ.

В качестве объекта исследования выступают литературные произведения поэтов, чье творчество относится к «поэзии серебряного века» (конец XIX — начало XX вв.).

Новизна данной работы заключается в применении частотного и корреляционного анализа к поэтическим текстам с целью разработки методики их сопоставления для выявления «близости» литературной деятельности авторов. Также принципиально новым в данной работе является использование частотных словарей, состоящих из N-грамм, N=3, 4, 5, для сравнения литературных текстов поэтов.

Первая глава данной работы рассказывает об истории развития компьютерной лингвистики и основных этапах ее формирования как научного направления. Также в этой главе говорится о взаимодействии науки о языке и математики и о том, как методы математической статистики нашли свое применение при решении ряда задач, в результате чего и была сформирована квантитативная (статистическая) лингвистика.

Вторая глава посвящена описанию математического аппарата для исследований текстов на естественном языке и, в частности, для проведения литературоведческих исследований.

В третье главе представлено описание программного обеспечения, с помощью которого производится анализ и сопоставление литературных текстов.

Показать весь текст

Заполнить форму текущей работой