Переводческие корпусы и механизмы их сопоставления
При построении лингвистического корпуса следует учитывать ряд шагов и этапов: определение перечня источников, оцифровка текстов (при неимении электронной версии текста), предобработка текста, конвертирование, разметка текста, корректировка результатов и обеспечение доступа к корпусу. Из предъявляемых требований к корпусу следует отметить: Говоря о размере корпуса необходимо заметить, что… Читать ещё >
Переводческие корпусы и механизмы их сопоставления (реферат, курсовая, диплом, контрольная)
Интерпретация понятия лингвистического корпуса и его основные характеристики
«Современная лингвистика — это лингвистика корпусов» (Плунгян 2009). Понятие лингвистического корпуса является центральным понятием динамически развивающейся науки — корпусной лингвистики. Компьютерный корпус представляет собой массив естественных текстов современного языка (как письменных, так и устных), представленных на машинном носителе и должным образом упорядоченных с целью их использования в научных или практических целях. (Шевчук 2010: 44). Э. Финеган понимает под корпусом репрезентативное собрание текстов, обычно в машиночитаемом формате и включающее информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории (Finegan 2004: 23). В. В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты и воплощенная в правилах организации текстов в корпус, алгоритме и программе анализа корпуса текстов, сопряженной с этим идеологии и методологии (Рыков 2002: 59). Т. МакЭнери и Э. Вилсон дают следующее определение: корпус — это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка (McEnery, Wilson 2001: 15). Данные определения указывают, прежде всего, на то, что корпус является набором данных какого-либо типа, представленные в электронном виде и имеющие определённую композицию.
В.П. Захаров видит следующие причины создания и использования различных корпусов:
- 1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
- 2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
- 3) однажды созданный и подготовленный массив данных может использоваться многократно, различными исследователями и в различных целях (Захаров 2011: 8).
Следует выделять следующие важные характеристики корпуса: а) размер, б) электронная форма, в) пополняемость, г) репрезентативность, д) разметка.
Говоря о размере корпуса необходимо заметить, что на настоящий момент самыми объёмными корпусами являются общеязыковые корпуса, обладающие многомиллионными словоупотреблениями, например, Национальный корпус русского языка или Британский национальный корпус. С течением времени объём и состав корпуса могут меняться.
Под репрезентативностью корпуса понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т. д., то есть способность отражать все свойства проблемной области (Рыков 2002). Применительно к общеязыковому корпусу понятие репрезентативности невозможно рассчитать и описать в строгой математической модели, тем не менее, на этапе проектирования корпуса это необходимо учитывать.
Разметка корпуса заключается в приписывании текстам и их компонентам специальных меток — тэгов (tags). Разметка корпуса делится на лингвистическую, описывающую лексические, грамматические и прочие характеристики элементов текста, и внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика).
Важной составляющей в работе с лингвистическими корпусами является понятие корпусного менеджера (корпус-менеджера). Корпусный менеджер — это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме (Захаров 2011). Данное программное устройство позволяет осуществлять сложные информационные запросы, выводить статическую информацию по определённым элементам корпуса, работать с различными текстовыми форматами.
При построении лингвистического корпуса следует учитывать ряд шагов и этапов: определение перечня источников, оцифровка текстов (при неимении электронной версии текста), предобработка текста, конвертирование, разметка текста, корректировка результатов и обеспечение доступа к корпусу. Из предъявляемых требований к корпусу следует отметить:
- ? Полноту как требование учёта релевантных явлений, даже если это не соответствует пропорциональному сужению.
- ? Экономичность как свойство корпуса экономить усилия исследователей при изучении предметной области.
- ? Структуризацию материала как презентацию единиц хранения по характеристикам, имманентно им присущим, и по параметрам, важным для пользователя.
- ? Самодостаточность фрагмента текста как требование не содержать неоднозначность любого типа.
- ? Компьютерную поддержку как свойство корпуса иметь комплекс программ по обработке данных (Баранов 2003).
Таким образом, лингвистический корпус является на сегодняшний день универсальным средством обработки, анализа и поиска необходимых данных. Более того, общедоступность технических средств позволяет исследователю формировать свои собственные корпусы для решения любых лингвистических задач. Не исключением является и использования корпуса в решении современных переводоведческих задач.