Помощь в написании студенческих работ
Антистрессовый сервис

Введение. 
Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов

РефератПомощь в написанииУзнать стоимостьмоей работы

Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь… Читать ещё >

Введение. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов (реферат, курсовая, диплом, контрольная)

Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами — сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, — это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].

С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений — нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.

В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других — параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.

Введение. Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов.

Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже. Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл Текст»).

Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).

Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:

  • 1) анализ принципов составления и особенностей существующих электронных словарей различных типов;
  • 2) описание и анализ реализации иллюстративного блока в современной лексикографической практике;
  • 3) описание подходов к сочетаемости и анализ их отражения в лексикографической практике;
  • 4) выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.

Предполагается также решение следующих практических задач:

  • 1) разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;
  • 2) реализация алгоритма ранжирования параллельных контекстов;
  • 3) оценка качества ранжирования и релевантности выделенных признаков.

Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.

Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.

Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно — в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.

Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог'2015».

Показать весь текст
Заполнить форму текущей работой