Переводческие корпусы и механизмы их сопоставления

РефератПомощь в написанииУзнать стоимостьмоей работы

При построении лингвистического корпуса следует учитывать ряд шагов и этапов: определение перечня источников, оцифровка текстов (при неимении электронной версии текста), предобработка текста, конвертирование, разметка текста, корректировка результатов и обеспечение доступа к корпусу. Из предъявляемых требований к корпусу следует отметить: Говоря о размере корпуса необходимо заметить, что… Читать ещё >

Переводческие корпусы и механизмы их сопоставления (реферат, курсовая, диплом, контрольная)

Интерпретация понятия лингвистического корпуса и его основные характеристики

«Современная лингвистика — это лингвистика корпусов» (Плунгян 2009). Понятие лингвистического корпуса является центральным понятием динамически развивающейся науки — корпусной лингвистики. Компьютерный корпус представляет собой массив естественных текстов современного языка (как письменных, так и устных), представленных на машинном носителе и должным образом упорядоченных с целью их использования в научных или практических целях. (Шевчук 2010: 44). Э. Финеган понимает под корпусом репрезентативное собрание текстов, обычно в машиночитаемом формате и включающее информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории (Finegan 2004: 23). В. В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты и воплощенная в правилах организации текстов в корпус, алгоритме и программе анализа корпуса текстов, сопряженной с этим идеологии и методологии (Рыков 2002: 59). Т. МакЭнери и Э. Вилсон дают следующее определение: корпус — это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка (McEnery, Wilson 2001: 15). Данные определения указывают, прежде всего, на то, что корпус является набором данных какого-либо типа, представленные в электронном виде и имеющие определённую композицию.

В.П. Захаров видит следующие причины создания и использования различных корпусов:

1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
3) однажды созданный и подготовленный массив данных может использоваться многократно, различными исследователями и в различных целях (Захаров 2011: 8).

Следует выделять следующие важные характеристики корпуса: а) размер, б) электронная форма, в) пополняемость, г) репрезентативность, д) разметка.

Говоря о размере корпуса необходимо заметить, что на настоящий момент самыми объёмными корпусами являются общеязыковые корпуса, обладающие многомиллионными словоупотреблениями, например, Национальный корпус русского языка или Британский национальный корпус. С течением времени объём и состав корпуса могут меняться.

Под репрезентативностью корпуса понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т. д., то есть способность отражать все свойства проблемной области (Рыков 2002). Применительно к общеязыковому корпусу понятие репрезентативности невозможно рассчитать и описать в строгой математической модели, тем не менее, на этапе проектирования корпуса это необходимо учитывать.

Разметка корпуса заключается в приписывании текстам и их компонентам специальных меток — тэгов (tags). Разметка корпуса делится на лингвистическую, описывающую лексические, грамматические и прочие характеристики элементов текста, и внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика).

Важной составляющей в работе с лингвистическими корпусами является понятие корпусного менеджера (корпус-менеджера). Корпусный менеджер — это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме (Захаров 2011). Данное программное устройство позволяет осуществлять сложные информационные запросы, выводить статическую информацию по определённым элементам корпуса, работать с различными текстовыми форматами.

? Полноту как требование учёта релевантных явлений, даже если это не соответствует пропорциональному сужению.
? Экономичность как свойство корпуса экономить усилия исследователей при изучении предметной области.
? Структуризацию материала как презентацию единиц хранения по характеристикам, имманентно им присущим, и по параметрам, важным для пользователя.
? Самодостаточность фрагмента текста как требование не содержать неоднозначность любого типа.
? Компьютерную поддержку как свойство корпуса иметь комплекс программ по обработке данных (Баранов 2003).

Таким образом, лингвистический корпус является на сегодняшний день универсальным средством обработки, анализа и поиска необходимых данных. Более того, общедоступность технических средств позволяет исследователю формировать свои собственные корпусы для решения любых лингвистических задач. Не исключением является и использования корпуса в решении современных переводоведческих задач.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Биография И.Ф. Богдановича

Как указывает П. Н. Берков, здесь имеется в виду окончание коронационных торжеств и отъезд двора в Петербург. Это соображение подтверждает и Богданович в своей автобиографии, говоря о том, что по отъезде Дашковой в Петербург он занялся переводом военного сочинения «Малая война» и «дедиковал» (посвятил) его П. И. Панину. Вскоре, в мае 1763 года, «по прошению его отослан в Военную коллегию…

Реферат