Применение математических методов в лингвистике во второй половине ХХ века
В первой монографии «Синтактические структуры» учёный представил язык как механизм порождения бесконечного множества предложений с помощью конечного набора грамматических средств. Для описания языковых свойств он предложил понятия глубинной (скрытой от непосредственного восприятия и порождаемой системой рекурсивных, т. е. могущих применяться многократно, правил) и поверхностной (непосредственно… Читать ещё >
Применение математических методов в лингвистике во второй половине ХХ века (реферат, курсовая, диплом, контрольная)
К середине ХХ века сформировалось четыре мировых лингвистических школы, каждая из которых оказалась родоначальником определённого «точного» метода.
- 1. Ленинградская фонологическая школа. Её родоначальником был ученик Бодуэна де Куртенэ Л. В. Щерба. Она использовала в качестве основного критерия обобщения звука в виде фонемы психолингвистический эксперимент, основанный на анализе речи носителей языка.
- 2. Учёные Пражского лингвистического кружка, в частности — его основатель Н. С. Трубецкой, эмигрировавший из России, разработали теорию оппозиций — семантическая структура языка была описана ими как набор оппозитивно построенных семантических единиц — сем. Эта теория применялась в изучении не только языка, но и художественной культуры.
- 3. Идеологами американского дескриптивизма были языковеды Л. Блумфилд и Э. Сепир. Язык представлялся дескриптивистам в виде совокупности речевых высказываний, которые и были главным объектом их исследования. В центре их внимания оказались правила научного описания (отсюда название) текстов: изучение организации, аранжировка и классификация их элементов. Формализация аналитических процедур в области фонологии и морфологии (разработка принципов исследования языка на разных уровнях, дистрибутивного анализа, метода непосредственно составляющих и т. д.) привела к постановке общих вопросов лингвистического моделирования. Невнимание к плану содержания языка, а также парадигматической стороне языка не позволило дескриптивистам достаточно полно интерпретировать язык как систему.
В 1960;х годах развивается теория формальных грамматик, возникшая, главным образом, благодаря работам американского философа и лингвиста Н. Хомского. Он по праву считается одним из наиболее известных современных учёных и общественных деятелей, ему посвящено множество статей, монографий и даже полнометражный документальный фильм. По имени принципиально нового способа описания синтаксической структуры, изобретённого Хомским — генеративной (порождающей) грамматики — соответствующее течение в лингвистике получило название генеративизма.
Хомский, потомок выходцев из России, с 1945 года изучал в Пенсильванском университете лингвистику, математику и философию, находясь под сильным влиянием своего учителя Зелига Хэрриса — как и Хэррис, Хомский считал и считает свои политические взгляды близкими к анархизму (до сих пор он известен как критик существующего политического строя США и как один из духовных лидеров антиглобализма).
Первая крупная научная работа Хомского, магистерская диссертация «Морфология современного иврита» (1951), так и осталась неопубликованной. Докторскую степень Хомский получил в Пенсильванском университете в 1955, однако большая часть исследований, положенных в основу диссертации (полностью опубликованной только в 1975 под названием «Логическая структура лингвистической теории») и его первой монографии «Синтаксические структуры» (Syntactic Structures, 1957, рус. пер. 1962), была выполнена в Гарвардском университете в 1951;1955. В том же 1955 ученый перешел в Массачусетский технологический институт, профессором которого он стал в 1962.
В своём развитии теория Хомского прошла несколько этапов.
В первой монографии «Синтактические структуры» учёный представил язык как механизм порождения бесконечного множества предложений с помощью конечного набора грамматических средств. Для описания языковых свойств он предложил понятия глубинной (скрытой от непосредственного восприятия и порождаемой системой рекурсивных, т. е. могущих применяться многократно, правил) и поверхностной (непосредственно воспринимаемой) грамматических структур, а также трансформаций, описывающих переход от глубинных структур к поверхностным. Одной глубинной структуре могут соответствовать несколько поверхностных (например, пассивная конструкция Указ подписывается президентом выводится из той же глубинной структуры, что и активная конструкция Президент подписывает указ) и наоборот (так, неоднозначность Мать любит дочь описывается как результат совпадения поверхностных структур, восходящих к двум различным глубинным, в одной из которых мать — та, кто любит дочь, а в другой — та, кого любит дочь).
Стандартной теорией Хомского считается модель «Аспектов», изложенная в книге Хомского «Аспекты теории синтаксиса». В этой модели в формальную теорию впервые вводились правила семантической интерпретации, приписывающих значение глубинным структурам. В «Аспектах» языковая компетенция противопоставлена употреблению языка (performance), принята так называемая гипотеза Катца — Постала о сохранении смысла при трансформации, в связи, с чем исключено понятие факультативной трансформации, а также введен аппарат синтаксических признаков, описывающих лексическую сочетаемость.
В 1970;е Хомский работает над теорией управления и связывания (GB-теория — от слов government и binding) — более общей, нежели предыдущая. В ней учёный отказался от специфических правил, описывающих синтаксические структуры конкретных языков. Все трансформации были заменены одной универсальной трансформацией перемещения. В рамках GB-теории существуют и частные модули, каждый из которых отвечает за свою часть грамматики.
Уже недавно, в 1995 году, Хомский выдвинул минималистскую программу, где человеческий язык описывается подобно машинному. Это лишь программа — не модель и не теория. В ней Хомский выделяет две главных подсистемы языкового аппарата человека: лексикон и вычислительную систему, а также два интерфейса — фонетический и логический.
Формальные грамматики Хомского стали классическими для описания не только естественных, но и искусственных языков — в частности, языков программирования. Развитие структурной лингвистики во второй половине ХХ века можно по праву считать «хомскианской революцией».
4. Московская фонологическая школа, представителями которой были А. А. Реформатский, В. Н. Сидоров, П. С. Кузнецов, А. М. Сухотин, Р. И. Аванесов, использовала подобную же теорию для изучения фонетики. Постепенно «точные» методы начинают применяться касаемо не только фонетики, но и синтаксиса. Структурностью языка начинают заниматься и лингвисты, и математики — как у нас, так и за рубежом. В 1950;60е в СССР начинается новый этап во взаимодействии математики и лингвистики, связанный с разработкой систем машинного перевода.
Толчком к началу этих работ в нашей стране послужили первые разработки в области машинного перевода в США (хотя первое механизированное переводное устройство П.П. Смирнова-Троянского было изобретено в CCCР ещё в 1933 году, оно, будучи примитивным, не получило распространения). В 1947 году А. Бутт и Д. Бриттен придумали код для пословного перевода с помощью ЭВМ, годом позже Р. Риченс предложил правило разбиения слов на основу и окончание при машинном переводе. В те годы довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений — новое в математике, физике и технике служило, в первую очередь, военному делу. На ранних этапах разработка МП активно поддерживалась военными, при этом (в условиях «холодной войны») в США развивалось русско-английское направление, а в СССР — англо-русское.
В январе 1954 года в Массачусетском техническом университете состоялся «Джорджтаунский эксперимент" — первая публичная демонстрация перевода с русского языка на английский на машине ИБМ-701. Реферат сообщения об удачном прохождении эксперимента, сделанный Д. Ю. Пановым, появился в РЖ «Математика», 1954, № 10: «Перевод с одного языка на другой при помощи машины: отчёт о первом успешном испытании».
К работам по машинному переводу Д. Ю. Панов (в то время директор Института научной информации — ИНИ, позднее ВИНИТИ) привлёк И. К. Бельскую, которая позднее возглавит группу машинного перевода в Институте точной математики и вычислительной техники АН СССР. К концу 1955 года относится первый опыт перевода с английского языка на русский при помощи машины БЭСМ. Программы для БЭСМ составляли Н. П. Трифонов и Л. Н. Королёв, кандидатская диссертация которого была посвящена методам построения словарей для машинного перевода.
Параллельно работы по машинному переводу велись в Отделении прикладной математики Математического института АН СССР (сейчас Институт прикладной математики имени М. В. Келдыша РАН). По инициативе математика А. А. Ляпунова. К работам по переводу текстов на машине «Стрела» с французского языка на русский он привлёк аспирантку МИАН О. С. Кулагину и своих учениц Т. Д. Вентцель и Н. Н. Рикко. Представления Ляпунова и Кулагиной о возможности использования техники для перевода с одного языка на другой были опубликованы в журнале «Природа», 1955, № 8. С конца 1955 года к ним присоединилась Т. Н. Молошная, затем приступившая к самостоятельной работе над алгоритмом англо-русского перевода.
Р. Фрумкина, занимавшаяся в то время алогритмом перевода с испанского, вспоминает, что на этом этапе работ сложно было делать какие-то последовательные шаги. Гораздо чаще приходилось следовать эвристическому опыту — своему или коллег.
Однако первое поколение систем машинного перевода было весьма несовершенным. Все они базировались на алгоритмах последовательного перевода «слово за словом», «фраза за фразой» — смысловые связи между словами и предложениями никак не учитывались. Для примера можно привести предложения: «John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив.)». «Pen» в данном контексте — не «ручка» (инструмент для письма), а «детский манеж» (play-pen). Знание синонимов, антониов и переносных значений сложно вводить в компьютер. Перспективным направлением становилась разработка машинных систем, ориентированных на использование человеком-переводчиком.
Со временем на смену системам прямого перевода пришли Т-системы (от английского слова «transfer» — преобразование), в которых перевод осуществлялся на уровне синтаксических структур. В алгоритмах Т-систем использовался механизм, позволяющий построить синтаксическую структуру по правилам грамматики языка входного предложения (подобно тому, как учат иностранному языку в средней школе), а затем синтезировать выходное предложение, преобразуя синтаксическую структуру и подставляя из словаря нужные слова.
Ляпунов говорил о переводе путём извлечения смысла переводимого текста и его представления на другом языке. Подход к построению систем машинного перевода, основанный на получении смыслового представления входного предложения путём его семантического анализа и синтеза входного предложения по полученному смысловому представлению, до сих пор считается наиболее совершенным. Такие системы называют И-системами (от слова «интерлингва»). Однако задача по их созданию, поставленная ещё в конце 50-х — начале 60-х, не решена полностью до сих пор, несмотря на усилия Международной федерации IFIP — мирового сообщества учёных в области обработки информации.
Учёные задумались над тем, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе. Такими представлениями традиционная лингвистика не располагала — не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозмаеняемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких составляющих элементов.
Потребность в создании теоретических основ машинного перевода и привела к формированию и развитию математической лингвистики. Ведущую роль в этом деле в СССР сыграли математики А. А. Ляпунов, О. С. Кулагина, В. А. Успенский, лингвисты В. Ю. Розенцвейг, П. С. Кузнецов, Р. М. Фрумкина, А. А. Реформатский, И. А. Мельчук, В. В. Иванов. Диссертация Кулагиной была посвящена исследованию формальной теории грамматик (одновременно с Н. Хомским в США), Кузнецов выдвинул задачу аксиоматизации лингвистики, восходящую к работам Ф. Ф. Фортунатова.
6 мая 1960 года было принято Постановление Президиума АН СССР «О развитии структурных и математических методов исследования языка», в Институте языкознания и Институте русского языка были созданы соответствующие подразделения. С 1960 года в ведущих гуманитарных вузах страны — филологическом факультете МГУ, Ленинрадском, Новосибирском университетах, МГПИИЯ — началась подготовка кадров в области автоматической обработки текста.
Однако работы по машинному переводу этого периода, называемого «классическим», представляют собой скорее теоретический, нежели практический интерес. Экономически эффективные системы машинного перевода стали создаваться только в восьмидесятые годы прошлого века.
К 1960;м — 70-м годам относятся глубокие теоретические разработки, использующие методы теории множеств и математической логики, такие, как теория поля и теория нечётких множеств.
Автором теории поля в лингвистике был советский поэт, переводчик и лингвист В. Г. Адмони. Свою теорию он изначально разрабатывал на основе немецкого языка. У Адмони понятие «поле» обозначает произвольное непустое множество языковых элементов (например, «лексическое поле», «семантическое поле»).
Структура поля неоднородна: оно состоит из ядра, элементы которого обладают полным набором признаков, определяющих множество, и периферии, элементы которой могут обладать как признаками данного множества (не всеми), так и соседних. Приведу пример, иллюстрирующий данное высказывание: скажем, в английском языке поле сложных слов («day-dream» — «мечтать» трудноотделимо от поля словосочетаний («tear gas» — «слезоточивый газ»).
С теорией поля тесно связана уже упомянутая выше теория нечётких множеств. В СССР её обоснованием занимались лингвисты В. Г. Адмони, И. П. Иванова, Г. Г. Поченцов, однако её родоначальником был американский математик Л. Заде, в 1965 году выпустивший статью «Fuzzy Logic». Давая математическое обоснование теории нечётких множеств, Заде рассматривал их на лингвистическом материале.
В этой теории речь идёт уже не столько о принадлежности элементов к данному множеству (Аа), сколько о степени этой принадлежности (Аа), так как периферийные элементы могут в той или иной мере принадлежать нескольким полям. Заде (Лофти-заде) был выходцем из Азербайджана, до 12 лет имел практику общения на четырех языках — азербайджанском, русском, английском и персидском — и пользовался тремя различными алфавитами: кириллицей, латинским, арабским. Когда ученого спрашивают, что общего между теорией нечетких множеств и лингвистикой, он не отрицает этой связи, но уточняет: «Я не уверен, что изучение этих языков оказало большое влияние на мое мышление. Если это и имело место, то разве что подсознательно». В юности Заде учился в Тегеране в пресвитерианской школе, а после Второй мировой войны эмигрировал в США.
В России в 70-е переводятся и изучаются труды западных лингвистов ХХ века. И. А. Мельчук перевёл на русский язык сочинения Н. Хомского. Н. А. Слюсарева в своей книге «Теория Ф. де Соссюра в свете современной лингвистики» связывает постулаты соссюровского учения с актуальными проблемами лингвистики 70-х. Намечается тенденция к дальнейшей математизации лингвистики. В ведущих отечественных вузах идёт подготовка кадров по специальности «Математическая (теоретическая, прикладная) лингвистика». В это же время на Западе происходит резкий скачок в развитии вычислительной техники, для чего требуются всё более новые лингвистические основы.
В 1980;е годы профессор Института востоковедения АН Ю. К. Лекомцев, занимаясь анализом языка лингвистики через анализ схем, таблиц и других видов записи, используемых в лингвистических описаниях, рассматривает математические системы, пригодные для этих целей (в основном — системы матричной алгебры).
Таким образом, на протяжении всего ХХ века шло сближение точных и гуманитарных наук. Взаимодействие математики с лингвистикой всё чаще находило практическое применение.