Иллюстративный блок одно-и многоязычных словарей

РефератПомощь в написанииУзнать стоимостьмоей работы

Иллюстративный блок одно-и многоязычных словарей (реферат, курсовая, диплом, контрольная)

Принципы формирования иллюстративного блока в словарях

В одноязычных словарях примеры предназначены для иллюстрации основного содержания словарных статей, а метод их подбора практически полностью определяется функциями словаря. Например, в толковых словарях это иллюстрация значения: примеры дополняют толкование (причём могут даже содержать информацию энциклопедического характера), иллюстрируют грамматическую и лексическую сочетаемость, стилистические особенности употребления, коннотации и ассоциации. Количество и характер иллюстраций при заголовочном слове даже указывает на частоту употребления и может отражать данные живой речи. Поскольку данная работа посвящена двуязычным словарям, мы рассмотрим лишь некоторые характеристики иллюстраций одноязычных словарей — в основном, те проекты и идеи, которые касаются компьютерной обработки лингвистических данных.

Двуязычные словари выполняют другие функции — они предназначаются для перевода с родного языка на неродной и обратно, как при обучении, так и при, например, профессиональном переводе. Из одноязычных словарей по цели наиболее близки к двуязычным словари устойчивых сочетаний различных типов и учебные словари.

«К словарям, тем более двуязычным, не принято писать теоретических введений», пишет Ю. Д. Апресян во введении к Новому большому англо-русскому словарю, составленному под его руководством [Апресян 2000: 12]. Выбор той или иной стратегии для описания конкретного явления в словаре часто явно не выражается в словаре. Исключения составляют теоретические опыты, например, Толково-комбинаторный словарь (Мельчук и др. 1984), о котором речь пойдёт в следующей главе. Что касается отбора иллюстрирующих контекстов, то в одноязычной лексикографии они изначально служат материалом для составления толкований. В этом плане интересным представляется замечание В. П. Беркова в его книге «Двуязычная лексикография»: «Проблема отбора словосочетаний — одна из важнейших в двуязычной лексикографии. Именно отбором словосочетаний переводные словари с одним и тем же входным языком чаще всего отличаются один от другого, именно отбор словосочетаний представляет собой наиболее спорную и уязвимую часть практически каждого двуязычного словаря» (Берков 2004: 61). Словосочетания, по его мнению, вообще составляют часть словника двуязычного словаря (действительно, во многих словарях указывается как количество статей, так и количество включённых словосочетаний). В роли иллюстраций, по мнению В. П. Беркова, выступают свободные сочетания: они дополняют семантизацию, иллюстрируют сходную структуру значений, показывают нюансы конкретного значения. Примеры должны.

a) быть информативными, сообщать некую информацию, дополнительную по отношению к переводу входного слова;

b) располагаться в порядке следования соответствующих переводных эквивалентов;

c) группироваться по значению.

Несвободные, фразеологизированные сочетания, очевидно, по мнению В. П. Беркова, включаются в словарь независимо от того, является ли перевод пословным.

Наиболее чётко принципы отбора иллюстраций для двуязычных словарей (как пассивного, так и активного типа) сформулированы в пособии по лексикографии «The Oxford Guide to Practical Lexicography» [Atkins, Rundell 2008]. Цель иллюстрирующих примеров — помочь пользователям словаря выбрать необходимый переводной эквивалент и правильно его использовать. В связи с этим нужно:

· указать, какое значение заголовочного слова иллюстрируется;
· предупредить пользователя о некорректных употреблениях;
· указать значения переводных эквивалентов в случае полисемии.

Поскольку в пособии [Atkins, Rundell 2008] речь идёт о традиционном двуязычном словаре, авторы замечают, что было бы слишком трудоёмко отбирать примеры переводов из корпуса. Вместо этого они рекомендуют использовать имеющиеся списки коллокаций, таким образом, иллюстрировать переводы в контексте этих коллокаций.

Функциональное описание иллюстраций в двуязычных словарях даётся в монографии [Butina-Koller 2005]: «Стандартные ситуации, в которых используется двуязычный словарь (восприятие текста на иностранном языке, перевод текста с иностранного языка на родной, перевод с родного языка на иностранный или более или менее свободное текстопроизводство на иностранном языке), и обусловленные этими ситуациями различные функции словарей должны учитываться при принятии конкретных решений в лексикографической практике». В работе далее подробно анализируются существующие решения в русско-французской лексикографии по четырём основным словарям — Новому французско-русскому словарю В. Г. Гака и К. А. Ганшиной, Dictionnaire Francais-Russe В. Г. Гака и Ж. Триомфа, Русско-французскому словарю Л. В. Щербы и М. И. Матусевич, Русско-французскому словарю Л. В. Щербы, М. И. Матусевич и Д. В. Сеземана.

В литературе обычно выделяются два критерия отбора коллокаций в качестве материала для словаря: частотность и типичность. В случае с двуязычными словарями важен контрастивный аспект — является ли то или иное сочетание понятным (transparent) для пользователя словаря. Понятные (transparent) словосочетания в рамках двуязычной лексикографии — те, значение которых выводится из значения составляющих и внутренняя форма сочетания на родном языке эквивалентна форме сочетания на иностранном. В противном случае трудности у пользователей словаря обычно возникают не при переводе на родной язык, а при порождении текста на иностранном языке. В формальной семантике такие выражения называются некомпозициональными, и именно эти случаи должны учитываться в двуязычном словаре.

В зарубежной лексикографии особое внимание уделяется так называемым типовым контекстам. Эта идея разрабатывается П. Хэнксом [Hanks 2012] в рамках методологии Corpus Pattern Analysis (CPA), на основе которой автор руководит составлением словаря английских глаголов The Pattern Dictionary of English Verbs (http://pdev.org.uk).

Методика базируется на теории нормы и употребления (Theory of Norm and Exploitation, TNE), а та в свою очередь вдохновлена работами М. Хэллидея [Halliday 1966] и Дж. Синклера [Sinclair 1966] по лексической семантике. Эти работы примечательны тем, что описанный в них подход лёг в основу методики создания словарей серии COBUILD и проекта Hector [Atkins 1993].

Основное внимание уделяется прототипическим синтаксическим шаблонам (patterns), фактически — рамкам валентности, с которыми ассоциируются эти слова при использовании их в речи. Эти шаблоны для существительных и глаголов существенно отличаются. Для существительных они строятся на основе корпусных данных и состоят обычно из нескольких групп, в которые объединяются значимые коллокаты. Для глаголов шаблонов включают не только базовую аргументную структуру, но и характеристики актантов, например, наличие определителя в подчинённой именной группе. Значение лексемы определяется не в изоляции, а в её прототипическом контексте. Поэтому первый этап CPA — группировка строк конкорданса по найденным синтаксическим шаблонам, а затем приписывание соответствующему значению толкования. Для практических приложений шаблону может соответствовать не толкование, а синонимический ряд или переводной эквивалент.

В немецком проекте elexiko [Storjohann 2005, URL: http://www1.ids-mannheim.de/lexik/elexiko.html] этот подход используется при разработке блока типовых контекстов (typische Verwendungen) в электронном словаре. Авторы ссылаются на подход П. Хэнкса в рамках проекта COBUILD [Hanks 1987] и формулируют своё неформальное определение типового контекста: это прототипические образцы с конкретными, выбранными по корпусным данным, лексическими элементами; многоуровневые лексико-синтаксические конструкции, элементы которых часто встречаются вместе. Типовые контексты в первую очередь показывают синтагматические ассоциации заголовочного слова — как особенности употребления конкретных грамматических форм, так и лексическую сочетаемость: см. Рисунок 8.

Более разработанное представление типовых контекстов описано в (Storjohann, Mohrs 2007). Было замечено, что типовые контексты представляют чрезвычайно ценный материал для изучающих язык. Поэтому важной задачей становится группировка и ранжирование этих фраз в электронном словаре. На рисунке 8 показаны типовые контексты для слова unbegrenzt (безграничный) в первой версии словаря и с группировкой. Можно заметить, что в первой версии отсутствовала возможность объединения контекстов по их синтаксическому типу, а также пример реализации для слота (обозначается как […]), где возможна широкая вариативность. Это было связано как с ограниченностью функционала графического отображения словарных статей, так и с неразработанностью методики группировки и ранжирования.

Разработчики отмечают, что иллюстрации должны быть упорядочены в соответствии с частью речи опорного слова: так, для прилагательного unbegrenzt в примере на рисунке выделяются синтаксические конструкции, в которых оно выступает в различных функциях — атрибутивной, предикативной и т. д. Затем для каждой группы вырабатывается свой принцип сортировки, иногда довольно специфический: например, в атрибутивном значении контексты располагаются в алфавитном порядке следования второстепенных слов конструкции (предлогов, глагольных форм).

Рисунок 8. Стандартное и упорядоченное представление типовых контекстов в elexiko.

Интересен также подход лексикографов elexiko к иллюстрации реализаций широко вариативных слотов: в примере это, скажем, […] unbegrenzt verlдngern и [z.B. den Vertrag] unbegrenzt verlдngern. Очевидно, что часто возможность реализации слота ограничена конкретной лексической группой (например, одушевлённые лица), однако часто требуется конкретизация. Поэтому на основании корпусных данных были выбраны наиболее регулярные реализации, которые затем использовались в качестве примера заполнения слота.

В отечественной лингвистике тоже употребляется понятие типового контекста (обычно без определения). Например, в книге «Лингвистическая семантика» И. М. Кобозевой [Кобозева 2000] акцентируется необходимость типового контекста для описания значения лексических единиц: «Рассматривая проблему описания значения слова, мы пришли к выводу о том, что в общем случае невозможно правильно, адекватно описать значение слова, изъяв его из типового синтаксического контекста. Таким образом, описание значения (парадигматического свойства слова) требует учёта его синтагматических свойств» [Кобозева 2000: 148].

Типовые контексты, представленные в словарях, и реальные употребления, зафиксированные в корпусе, обсуждаются в статье [Крылов, Митрофанова 2006]. Авторы не формулируют своего определения типового контекста, но принимают как данность, что контексты, иллюстрирующие словарные статьи, считаются типовыми. В статье сравниваются контексты из корпуса Бокрёнок [Азарова, Синопальникова 2004], иллюстрации из словаря Ожегова [Ожегов 1989] и типовая сочетаемость по лексической базе СО-Starling [Крылов, Старостин 2005]. В результате исследования, проведённого на материале частотных лексем год и говорить, было выявлено несколько классов контекстов:

— типовые контексты, которые отражают «закономерное в языке» — структурную организацию и лексическое наполнение синтагм, содержащих опорные слова;
— типовые контексты, содержащие маргинальные единицы, которые, по мнению авторов, отражают «случайное в языке»;
— контексты, совмещающие случайное и закономерное — идиомы, связи между лексемами внутри которых являются одновременно случайными и закономерными.

При этом информация из специализированной лексической базы данных оказывается более разнообразной по сравнению со словарными статьями, но при этом более «концентрированной» и сбалансированной, чем случайные корпусные данные.

А. Килгарифф и коллеги в статье [Kilgarriff и др. 2008], посвящённой корпусному отбору иллюстраций (предложений) для словаря коллокаций Macmillan, также отмечают типичность как необходимую характеристику примера. Для ранжирования контекстов, автоматически найденных в корпусе, используются следующие признаки:

— длина предложения: контексты короче 10 и длиннее 25 слов штрафовались;
— частоты слов внутри предложения;
— наличие в предложении придаточного с that;
— является ли контекст законченным предложением;
— положение опорной фразы внутри предложения.

Веса для признаков подбирались на основе размеченной выборки 1000 положительных примеров, получившуюся метрику GDEX можно использовать для сортировки конкорданса в SketchEngine. Ранжирование не использовалось непосредственно для принятия решений о включении контекста в словарь, но, по словам авторов, значительно сократила усилия лексикографов.

Показать весь текст

Заполнить форму текущей работой