Восприятие и порождение речи

РефератПомощь в написанииУзнать стоимостьмоей работы

Самым известным примером интермодальных взаимодействий при восприятии фонем взрослыми нормально слышащими людьми является так называемый эффект Мак-Гурка (по имени описавшего его. американского психолога — см., например, McGurk & MacDonald. 1976). Если испытуемый слышит одну фонему, но при этом видит по движениям губ, что произносится другая, то фонологические признаки «видимой речи» включаются… Читать ещё >

Восприятие и порождение речи (реферат, курсовая, диплом, контрольная)

Фонологическое восприятие

Французский врач Поль Брока (1824—1880) первым описал в 1861 г. участок коры передней части левого полушария (с тех пор зона Брока), поражения которого у взрослых людей ведут к нарушениям артикуляции и синтаксиса речи. Несколько позднее немецкий невролог Карл Вернике (1848—1905) обнаружил второй регион левого полушария, явно участвующий в восприятии звуков речи и понимании слов. Зона Вернике расположена в задней трети верхней височной доли и непосредственно примыкает сзади к кортикальным механизмам слухового анализа. Анатомические и физиологические исследования свидетельствуют о том, что этот регион служит основой восприятия речи уже в раннем онтогенезе. Так, вызванные потенциалы мозга в ответ на предъявление фонем, слогов и слов более выражены у новорожденных в области левой височной доли, чем правой. В случае неречевых звуков наблюдается обратная зависимость. Более того, разница в интенсивности ответов височных долей левого и правого полушарий новорожденных на речевые звуки служит хорошим предиктором развития речевых навыков в возрасте трех лет (Bornstein. 1996).

Биологические предпосылки восприятия речи едины для всех представителей вида Homo sapiens sapiens (то есть человека современного биологического вида, предположительно появившегося примерно 100 тысяч лет назад) и связаны, прежде всего, с восприятием фонем — наименьших смыслоразличительных единиц потока речевых звуков. Сравнительные лингвистические работы показывают, что различные языки используют ограниченный репертуар хорошо отличающихся друг от друга смыслоразличительных звуков. Например, полинезийские языки имеют лишь 15 фонем, тогда как в отдельных европейских и азиатских языках их число может превышать 60 (как в случае абхазского языка). В русском и английском насчитывается порядка 40 фонем. Судя по всему, имеются универсальные или почти универсальные фонологические признаки, присутствующие в большом числе языков. К числу таких признаков относятся звонкость., например /б/ или /п/, и место артикуляции согласных. Последний признак связан с местом перекрытия артикуляторного тракта при произнесении звука: подъемом задней части языка к мягкому нёбу, прикосновением языка к зубам и твердому нёбу или соединением губ, как, скажем, при произнесении звонких согласных /г/, /д/ и /б/.

Многие фонологические признаки, однако, не являются универсальными. Англичане, например, не способны различать некоторые фонемы довольно насыщенного согласными звуками чешского языка. Проблематичен, даже для ближайших географических соседей, голландский язык^[1], а европейцы в целом не слышат некоторых смыслоразличительных признаков фонем тайского языка и не способны правильно управлять ими в собственной речи, что, как утверждают, приводило к дипломатическим недоразумениям. Хорошо известны трудности восприятия и порождения согласных /р/ и /л/ носителями японского языка, в котором нет соответствующего фонологического различия. Во многих языках Восточной и Юго-Восточной Азии (таких как стандартный китайский, вьетнамский и другие) смыслоразличительным признаком является и высота тона.

Доказательство восприятия собственно фонем, а не просто отдельных признаков, связано с существованием эффекта категориалъности. Если предъявить слушателям в лабораторных условиях искусственные звуки, градуально превращающие, скажем, звонкое /ба/ в глухое /па/, то существует некоторое промежуточное значение, при котором люди начинают слышать другую, в данном случае глухую фонему. Это значение физической стимуляции называется границей категории. Оказалось, что положение границы категории на континууме физических стимулов предопределяет успешность различения пар звуков. Два близких по физическим параметрам звука различаются легко, если они попадают по разные стороны границы соответствующих фонологических категорий. Напротив, сравнительно сильно отличающиеся звуки могут идентифицироваться как одинаковые, когда они расположены по одну сторону границы.

Замечательный результат этой линии исследований, установленный первоначально американцем Питером Эймасом, состоит в том, что младенцы демонстрируют при предъявлении синтезируемых искусственно фонем такие же категориальные эффекты, как и взрослые. Об этом можно судить по динамике изменения ориентировочной реакции: ее возникновение свидетельствует о различении двух звуков, отсутствие — о том, что они обрабатываются как представители одной категории. Интересно, что категориальное восприятие младенцев распространяется на фонемы, не воспринимающиеся их родителями. Так, японские младенцы легко различают /р/ и /л/, а европейские дети — неразличимые для взрослых европейцев фонемы тайского языка. Если это действительно так, то фундаментальная проблема соотношения врожденного и приобретенного может получить здесь неожиданное решение: биогенетически ребенку предоставлены максимальные возможности для развития, но культурная (в данном случае, языковая) среда эти возможности ограничивает (в действительности, эта проблема не имеет однозначного общего решения — см. 9.4.2).

Не исключено, правда, что категориальность — это какой-то элементарный эффект, связанный лишь с анатомией слухового аппарата млекопитающих и не доказывающий врожденность восприятия фонем. Имеются данные о юж;

3 столицы своего государства. То, что известно нам как «Гаага», произносится носителями голландского языка с использованием гортанно-хрипящего звука, отсутствующего в других языках и для иностранцев обычно невоспроизводимого.

ноамериканских крысах шиншиллах, которые в экспериментах с выработкой условных рефлексов обнаружили категориальное различение звуков на континууме звонкости /ба-па/, причем с аналогичным положением границы категорий, как и у людей. Поскольку трудно предположить, что шиншилле может понадобиться врожденный механизм восприятия звуков человеческой речи, эти результаты затрудняют объяснение эффекта категориальности и у человека. Совершенно другой аргумент относится к особенностям восприятия взрослых людей. Категориальность восприятия фонем оказалась зависящей от того, относятся ли слушатели к ним, как к звукам речи или шумовым сигналам. Если бы эти механизмы были чем-то вроде врожденного модуля, то субъективная установка слушателя не влияла бы на их работу. Таким образом, эффекты категориального восприятия не столь автоматичны, как этого требуют известные критерии выделения когнитивных модулей, сформулированные Фодором (см. 2.3.2).

Против узкой специализации механизмов восприятия речевых звуков, предполагаемой гипотезой врожденного лингвистического модуля, также говорят данные о существовании целого ряда интермодальных, зрительно-слуховых эффектов. Так, ученица Найссера и Элеоноры Гибсон Элизабет Спелке одной из первых и, надо сказать, весьма элегантным образом продемонстрировала раннюю предрасположенность детей к восприятию речи в координации со зрительно воспринимаемыми событиями. В ее экспериментах младенцам в возрасте примерно пяти месяцев на разных экранах одновременно показывались два обычных, «взрослых» фильма с большой долей диалогов, причем лишь один из фильмом озвучивался из динамика, расположенного строго между экранами. Анализ движений глаз детей показал, что они преимущественно смотрели на экран с озвучивавшимся фильмом.

Самым известным примером интермодальных взаимодействий при восприятии фонем взрослыми нормально слышащими людьми является так называемый эффект Мак-Гурка (по имени описавшего его. американского психолога — см., например, McGurk & MacDonald. 1976). Если испытуемый слышит одну фонему, но при этом видит по движениям губ, что произносится другая, то фонологические признаки «видимой речи» включаются в процесс слухового восприятия с тем результатом, что слышаться начинает третья фонема, комбинирующая акустические и зрительные признаки. Так, если акустически предъявляется звук /ба/, а движения губ соответствуют слогу /га/, то слышится звук /да/. Для приведенной и некоторых других комбинаций слогов данный эффект выражен весьма отчетливо и, подобно всем перцептивным иллюзиям (см. 2.3.2), не зависит от знания реального положения дел. Закрытие глаз ведет к его исчезновению, а открытие — к немедленному восстановлению. Эффект Мак-Гурка сохраняется даже тогда, когда вводится рассогласование слышимого и видимого пола говорящего, например, испытуемый видит изображение говорящей женщины, но слышит мужской голос^[2].

Анализ фонем в контексте живой речи, а не при их изолированном предъявлении связан с некоторыми техническими осложнениями, которые даже побуждают отдельных авторов сомневаться в существовании фонем как реальных единиц восприятия и порождения речи. Дело в том, что акустические признаки фонем сильно зависят от контекста: предшествующих, а также непосредственно следующих сегментов речевого потока. Поэтому некоторые авторы считают, что единицей речевого сообщения является не фонема, а слог^[3]. Совершенно очевидно, однако, что и сами слоги не являются полностью инвариантными единицами. Как и слова, они связаны с общим, в том числе смысловым контекстом сообщения. Попытки выделить элементарные компоненты восприятия, таким образом, рано или поздно приводят к проблеме распознавания значения.

Исторически первой теорией, предназначенной для объяснения устойчивого восприятия речи в условиях неустойчивости акустических признаков фонем, была моторная теория восприятия (Lieberman & Blumstein. 1988). Сторонники этой теории пытались объяснить инвариантное восприятие меняющихся в зависимости от контекста фонем встречной артикуляцией соответствующих сегментов речи по ходу их восприятия. Действительно, при осложнении условий восприятия мы часто повторяем услышанное, но, возможно, это лишь проявление общей стратегии перепроверки полученной в процессе нарушенного общения информации, а не специализированный моторный механизм, встроенный в само восприятие. У моторной теории мало доказательств «за» и много аргументов «против». В частности, против предположения о существенной роли артикуляции говорят данные о возможности нормального восприятия в случае паралича речевой мускулатуры и при затруднениях артикуляции. Об этом же говорит анализ синхронного перевода. Последний действительно может быть практически «синхронным», то есть настолько близким к одновременному прослушиванию языка-источника и произнесению слов в целевом языке, что ни о какой промежуточной артикуляции слов языка-источника, якобы необходимой для его восприятия, не может быть и речи.

Психолингвист из английского Кэмбриджа Уильям Марслен-Уилсон (например, Marslen-Wilson. 1990) разработал когортную модель восприятия слов, согласно которой детальный фонологический анализ вообще не имеет места. На основании когнитивных ожиданий, генерируемых из контекста, и общего анализа первых звуков слова активируется предварительный список слов-кандидатов, называемый когортой. Любая последующая информация, как акустическая, так и семантикосинтаксическая, используется для удаления из когорты неподходящих слов. Обработка прерывается при удалении всех кандидатов, кроме одного. Достижение «точки узнавания», таким образом, является результатом параллельной обработки информации на нескольких уровнях. Под влиянием экспериментальных данных в последних версиях когортной модели предположение о полной параллельности обработки было изменено: влияние семантического и синтаксического контекста сильнее сказывается в них на относительно поздних стадиях восприятия слова. Предсказания этой теории, в целом достаточно успешные, в настоящее время продолжают проверяться. Конкуренцию ей составляют только коннекционистские модели.

Как мы отмечали выше (см. 2.3.3), коннекционистские модели восходят к ранним моделям распознавания конфигураций, перцептронам. Эти модели допускают возможность любых коммутаций источников сведений, тем самым объясняя также интермодальные эффекты в восприятии речи. С помощью относительно простых алгоритмов обучения они способны усваивать нерегулярные, чисто ассоциативные переходы, для которых нет соответствующих правил, например, «тап—>теп» или «go—nvent». Помимо этого, они способны аппроксимировать то, что описывается в генеративной грамматике как примеры применения абстрактных правил, например, постепенно моделировать — при восприятии и порождении — регулярные синтаксические эффекты, типа выявления множественного числа английских существительных на основе окончания «s» или прошедшего времени глаголов по ed. Данные о развитии речи и о статистическом соотношении регулярных и нерегулярных эффектов в отдельных языках оставляют пока открытым вопрос возможной коннекционистской природы синтаксической компетентности в целом, свидетельствуя скорее о различиях в механизмах обработки регулярных и нерегулярных грамматических переходов (Pinker. 2000)^.

В современных лингвистике и психолингвистике часто используются гибридные архитектуры, когда, например, нейросетевые компоненты вводятся в качестве адаптивного модуля в модели символического типа. Это позволяет обеспечить настройку на индивидуальные характеристики голоса или (в моделях чтения) на особенности движений глаз пользователя. Смешанную архитектуру предполагает теория оптимальности — наиболее влиятельная на сегодняшний день модель восприятия и порождения фонологических аспектов речи (Prince & Smolensky. 1997; Smolensky. 2005). Она относится к классу влиятельных моделей удовлетворения множественных ограничений, позволяющих описывать нахождение решения, которое оптимальным образом удовлетворяет нескольким различным правилам, таким как правила чередования согласных и гласных звуков, а также варьирования тона в тональных языках (таких как китайский). Коннекционистские модели также находят применение в задачах распознавания слов из заранее фиксированного и относительно небольшого набора команд. В этом качестве они начинают использоваться при речевом взаимодействии с различными техническими устройствами. Некоторые из подобных прикладных разработок будут рассмотрены нами в конце данной главы (см. 7.4.3).

Огромный интерес представляет восприятие глобальных акустических признаков, характеризующих сегменты речи, более крупные, чем отдельные фонемы, слоги, и слова. Так, повышение тона голоса к концу фразы обычно означает вопрос, то есть то, что говорящий с высокой степенью вероятности хочет что-то от вас услышать (хотя вопрос вполне может быть и риторическим, не предполагающим ответа — см. 7.1.2 и 7.4.1). Подобные интонационные, или просодические, признаки оказываются более инвариантными, чем акустические признаки отдельных фонем, как с точки зрения возможного влияния актуального речевого контекста, так и в отношении межъязыковых различий.

К сожалению, эти аспекты восприятия речи стали интенсивно изучаться лишь сравнительно недавно (Кодзасов. 2004). В одном из исследований (Ishii, Reyes & Kitayama. 2003) было проверено и получило экспериментальное подтверждение давнее предположение, что в восточных культурах (в данной работе, в Японии и на Филиппинах) именно интонация, а не содержание речи, как это характерно для Европы или Северной Америки, спонтанно привлекает внимание слушателя. Смена языка, а именно переход испытуемыми-билингвами^[4]

на английский язык, ничего не меняла в этой базовой направленности внимания. Итак, оказавшись в Японии или Китае и получив в ответ на прямой вопрос, казалось бы, положительный ответ «да», нам следует очень внимательно отследить тональность голоса собеседника! Имеющиеся нейропсихологические данные говорят о том, что подобные формы восприятия, равно как и процессы восприятия эмоциональных характеристик речи, преимущественно вовлекают правое полушарие мозга, а следовательно, заведомо не классические речевые зоны Брока и Вернике, локализованные в левом полушарии.

[1] Сразу после освобождения Нидерландов союзниками в 1945 г. местное населениеидентифицировало переодетых немецких солдат, предлагая им произнести название О
[2] С нейрофизиологической точки зрения, этот эффект достаточно неожиданен, таккак кортикальные вызванные потенциалы на акустические события всегда примернона 40 мс опережают зрительные. Иными словами, чтобы добиться одновременнойрегистрации зрительных и слуховых событий кортикальными механизмами сенсорнойобработки слушателя, говорящего нужно было бы отодвинуть на расстояние, примерноравное 10 м.
[3] О критической роли слогов в восприятии речи мог бы говорить тот факт, чтодлительность типичного слога, примерно равная 250 мс, совпадает со средней оценкой продолжительности сохранения акустической информации в слуховом сенсорномрегистре — эхоической памяти (см. 3.2.2). Типичный слог представляет собой движение от закрытого положения рта к открытому (гласному звуку) и вновь к относительнозакрытому, соответствующему либо конечной согласной данного слога, либо первойсогласной следующего. Существует предположение, что в основе слоговой организацииустной речи может лежать древняя синергия жевательных движений.
[4] Например, при образовании множественного числа существительных в немецкомязыке более частотными оказываются нерегулярные переходы и, естественно, возникаетвопрос, как нейронная сеть может путем чисто ассоциативного обучения выделить соответствующее правило, если ей чаще приходиться сталкиваться с отклонениями от него.

Показать весь текст

Заполнить форму текущей работой