Нейронные сети в психологии
Одним из самых первых примеров интегрального подхода, заполняющего брешь между субсимвольными и символьными репрезентациями, являются работы ученика Румелхарта Пола Смоленского (Smolensky. 2005). Использовав математический аппарат тензорного исчисления, он доказал принципиальную возможность построения коннекционистско-символъных когнитивных архитектур (ICS = Integrated Connectionist/ Symbolic… Читать ещё >
Нейронные сети в психологии (реферат, курсовая, диплом, контрольная)
Другим влиятельным подходом в течение последних 20 лет стал так называемый PDP-подход (от parallel distributed processing = параллельная распределенная обработка), широко известный также как коннекционизм[1]. И в этом случае речь идет об отказе от компьютерной метафоры в ее символьном варианте, связанном первоначально с логико-математическими работами Алана Тьюринга и Джона фон Неймана. Однако, если концепция когнитивных модулей Фодора и его последователей лишь допускает определенную параллельность обработки в каких-то звеньях когнитивной архитектуры, в коннекционизме параллельность обработки становится уже всеобщим принципом. Речь идет о массивной параллельности обработки — все элементы системы, интерпретируемой как обширная нейронная сеть, рассматриваются как потенциально связанные между собой и одновременно участвующие в формировании ответа на стимульную конфигурацию.
Типичная коннекционистская сеть показана на рис. 2.10. Наличие нескольких слоев элементов: входного и выходного слоя плюс не менее одного промежуточного (или «скрытого», от англ, hidden) слоя — отличительная черта современных коннекционистских моделей. Попытки демонстрации вычислительных возможностей сетей формальных нейронов предпринимались американскими нейрофизиологами МакКаллоком и Питтсом еще в 1940;е гг. В последующие два десятилетия простые (один входной и один выходной слой) сети под названием «персептроны» использовались для машинного распознавания изображений, однакобез особого успеха, так как оказалось, что они неспособны к строгой дизъюнкции («либо А» — «либо В») — логической операции, необходимой для различения состояний мира. Лишь в начале 1980;х гг. было показано, что добавление по крайней мере одного «скрытого» слоя нейроноподобных элементов снимает эту проблему, позволяя осуществлять на базе параллельных архитектур весь спектр логических операций. В 1986 г. Румелхарт и Макклелланд опубликовали двухтомную «библию» коннекционизма (McClelland & Rumelhart. 1986; Rumelhart & McClelland. 1986), содержащую, наряду с описанием формального аппарата моделирования, многочисленные примеры психологических и нейрофизиологических применений этого подхода.
Активация на входе.
Рис. 2.10. Однонаправленная (feedforward) коннекционистская сеть, включающая скрытый слой элементов
Главное преимущество коннекционистских моделей по сравнению с традиционными когнитивными моделями — это возможность ассоциативного (контентно-адресованного) и распределенного хранения информации, а также, что особенно важно, адаптивного обучения. Первая особенность означает, что любой фрагмент первоначальной ситуации или любое сопутствующее обстоятельство способны ассоциативно поддержать припоминание. «Распределенным» хранение является потому, что его субстратом является в каждом конкретном случае не какой-то отдельный элемент, а сеть в целом, то есть состояния всех ее узлов и весовые коэффициенты их связей. Наконец, коннекционизм позволяет естественно описывать некоторые элементарные формы обучения. Процессы обучения в искусственных нейронных сетях имеют известную специфику, которая должна стать понятной из нижеследующих примеров.
Простейшая, сугубо ассоциативная процедура обучения в нейронных сетях восходит к классическим идеям проторения путей павловской физиологии и клеточных ансамблей Дональда Хэбба (см. 1.4.2).
В «Организации поведения» Хэбб (Hebb. 1949) предположил, что повторная стимуляция тех же рецепторов постепенно ведет к функциональному объединению нейронов ассоциативных областей мозга, так что этот клеточный ансамбль может сохранять активацию после окончания стимуляции и вновь возбуждаться при возникновении похожего узора стимуляции. В нейроинформатике используется следующее правило Хэбба: между всеми одновременно (синхронно) активированными нейронами (то есть элементами сети) снижаются пороги синаптических связей (повышаются весовые коэффициенты активационных связей). В результате многократных повторений распространение активации при возникновении на входе той же ситуации происходит быстрее, группа элементов, «ансамбль», активируется как целое, и, что важно, эта активация происходит даже при изменениях ситуации, например, выпадении каких-то компонентов изображения, а равно «отмирании» части «нейронов» самой сети. Тем самым удается моделировать особенности целостного восприятия, описанного гешталыпсихологией (см. 1.3.1). Подобная терпимость {graceful degradation) к искажениям на входе и к нарушениям механизма обработки информации разительно контрастирует с хрупкостью обычных символьных программ, где лишний пропуск или неправильно поставленная запятая способны остановить работу программы и даже самого компьютера. Кроме того, пластичность синаптических связей, лежащая в основе формирования ансамблей, позволяет дать физиологическое объяснение процессам обобщения (категоризации) отдельных стимульных ситуаций.
Недостатком описанного механизма самоорганизации нейронных связей является его чрезвычайно медленный, требующий сотен и тысяч повторений характер. В 1981 г. немецко-американский нейрофизиолог К. фон дер Мальсбург предположил, что для объяснения одноразового обучения должны существовать быстрые синапсы, меняющие свои характеристики в ответ на однократное возникновение некоторой, обычно новой или значимой ситуации. Мальсбург назвал их «хэббовскими синапсами». Такие синапсы действительно были обнаружены в последнее время и по предложению Нобелевского лауреата по биологии Фрэнсиса Крика иногда называются теперь «мальсбургскими». Мы подробнее остановимся на обсуждении этих нейрофизиологических механизмов в последующих главах, посвященных сознанию и памяти (см. 4.4.3 и 5.3.2).
Примером более эффективного компьютерного алгоритма обучения в самой нейроинформатике служит предложенный канадским информатиком Джеффри Хинтоном и его коллегами метод обратного распространения ошибки (backpropagadon of error). В этом случае сети предъявляется некоторая конфигурация, а затем ответ на выходе сравнивается с идеальным, желаемым ответом. Результат подобного сравнения того, что должно быть (Sollwert), с тем, что есть (Istwert), вычисляется и пропускается затем в обратном направлении: от выхода сети к ее входному слою, причем на каждом промежуточном этапе осуществляются некоторые коррекции весовых коэффициентов связей элементов с целью последующей минимизации рассогласования. Телеологизм этих процессов и необходимость эксплицитного надсмотра за обучающейся сетью порождают, с одной стороны, множество смутных психологических аналогий, а с другой стороны, известный скептицизм в оценке «обратного распространения» как подходящего средства моделирования когнитивных процессов. Дело в том, что «контролируемая минимизация рассогласования» оставляет сильное впечатление произвольного подбора желаемого результата[2].
Ряд коннекционистских моделей использует обратные связи для повторного пропускания продуктов обработки через нейронную сеть. Это свойство, называемое рекуррентностью, позволяет обрабатывать конфигурации на входе в контексте предыдущих событий («прошлого опыта»). Два варианта рекуррентных сетей, использовавшихся для моделирования синтаксического анализа речи, показаны на рис. 2.11. Существует практически открытое множество других вариантов коммутации элементов, а также возможность соединения коннекционистских моделей с традиционными символьными архитектурами в рамках гибридных моделей, включающих как символические, так и коннекционистские компоненты. Так, в литературе интенсивно обсуждается возможность существования разных нейролингвистических механизмов для работы с регулярными и нерегулярными глаголами (Pinker. 2000). В случае регулярных глаголов, склоняемых по определенным фиксированным правилам, в памяти могла бы сохраняться лишь корневая морфема, по отношению к которой осуществляются традиционные символьные трансформации (скажем, добавление «-ей» при переходе к прошедшему времени в английском языке). Работа с нерегулярными глаголами, напротив, требует заучивания индивидуальных паттернов (как в случае грамматических форм английского глагола «to be»: am, are, is, was, were). При моделировании такого, скорее механического, заучивания могли бы помочь нейронные сети (см. 7.1.3).
Коннекционизм не мог не вызвать острых научных дискуссий. Они возникли прежде всего с представителями символьного и модулярного подходов (Fodor & Pylyshin, 1988), для которых подобное применение идеи параллельности ведет слишком далеко, вплоть до отказа от основных принципов переработки символьной информации, выделенных к началу 1980;х гг. В самом деле, в распределенных архитектурах не выполняются основные логические требования к символьной записи информации, а следовательно, к коннекционистским репрезентациям не применимы средства исчисления предикатов (см. 2.3.3).
Поэтому, кстати, сами коннекционисты говорят об изучении субсимвольных процессов. Для некоторых видных психологов и лингвистов (например, Levelt, 1990) попытки моделирования познания с помощью обучающихся искусственных нейронных сетей представляют собой лишь слегка осовремененную редакцию упрощенных ассоцианистских взглядов.
Рис. 2.11. Рекуррентные нейронные сети, применяющиеся для (А) моделирования построения форм прошлого времени английских глаголов и (Б) предсказания грамматической категории следующего слова в предложении (по: Cooper. 1996).
Интересно, что слабые и сильные стороны более традиционных символьных и относительно новых коннекционистских моделей различаются между собой. Символьные программы относительно удобны при реализации эксплицитных правил и практически беспомощны в области интуитивных достижений, таких как разделение сцены на фигуру и фон в процессах зрительного восприятия (см. 1.3.1 и 4.3.3). Искусственные нейронные сети, напротив, впервые позволили легко смоделировать эффекты перцептивной организации и, скажем, эффекты ассоциативного обучения и запоминания, но они плохо, путем многочисленных повторных приближений справляются с выделением, казалось бы, совсем простых правил. Это позволяет предположить, что наиболее вероятным будущим в области моделирования познавательных возможностей человека и животных станет использование интегральных или гибридных архитектур, сочетающих достоинства символьного и субсимвольного подходов (и, будем надеяться, свободных от их недостатков!).
Одним из самых первых примеров интегрального подхода, заполняющего брешь между субсимвольными и символьными репрезентациями, являются работы ученика Румелхарта Пола Смоленского (Smolensky. 2005). Использовав математический аппарат тензорного исчисления, он доказал принципиальную возможность построения коннекционистско-символъных когнитивных архитектур (ICS = Integrated Connectionist/ Symbolic), в которых свойства символьных преобразований реализуются на макроуровне описания, тогда как на микроуровне ментальные репрезентации описываются как массивно-параллельные процессы распространения волн активации по нейронным сетям. Этот подход был применен Смоленским и его коллегами в области теоретической лингвистики, где они, прежде всего, попытались объяснить разнообразные феномены маркированности — использование специальных лингвистических средств для выражения относительно нетипичных (или «менее гармоничных») в данном контексте языковых конструкций (см. 7.3.2 и 8.1.2). Несмотря на то, что их реализация осуществляется посредством нейросетевых механизмов, подобные «гармоничные грамматики» способны, по мнению Смоленского, полностью заменить генеративные грамматики при описании общих принципов функционирования языка. Процесс порождения речевых звуков (модель относится пока преимущественно к сфере фонологии речи — Prince & Smolensky. 1997) описывается при этом как оптимизация решения, удовлетворяющая нескольким гетерогенным правилам, таким как запрет на возникновение последовательностей из большого числа согласных звуков (см. 7.1.1).
В столь динамичной области, как когнитивная наука, трудно предсказывать будущее развитие событий. В рамках работ по вычислительной нейронауке (нейроинтеллекту) и эволюционному моделированию в последнее время начинают рассматриваться более реалистичные, с биологической и биофизической точки зрения, альтернативы искусственным нейронным сетям (такие как самоорганизующиеся карты, клеточные автоматы и, в отдаленной перспективе, квантовые компьютеры — см. Doyle, 2003; O’Reilly & Munakata. 2003). При увеличении объема мозга в процессе эволюции исходный сетевой принцип «всё связано со всем» перестает выполняться, возникают элементы модулярной макроорганизации (Striedter. 2004). Кроме того, при моделировании познания до сих пор практически никак не учитывалась роль нейротрансмиттеров, химических передатчиков сигналов между нейронами и модуляторов их активности. Диффузное, не ограниченное одним лишь преодолением синапсов действие нейротрансмиттеров может лежать в основе регуляции эмоциональных состояний и интеграции нейронов в сложные самоорганизующиеся системы. Последнее представляется очень существенным — ведь целостный мозг демонстрирует не только способности решения тех или иных узкопознавательных задач, но и множество других биологически и социально необходимых функций, в частности, связанных с эмоциями и мотивированным поведением (см. 2.4.3 и 9.4.3).
- [1] Распространенный сегодня в психологии и за ее пределами термин «коннекци-онизм» в историческом контексте впервые был использован Эдвардом Торндайком (например, Thorndike. 1932) для обозначения его основанной на ассоциативных связяхстимулов и реакций бихевиористской теории научения (см. 1.3.2 и 5.4.2).
- [2] Вне психологии — нейроинформатика, компьютерное зрение и роботика —широко используются алгоритмы обучения нейронных сетей, не требующие внешнегонадсмотра. Речь идет прежде всего о разновидности разработанных финским информатикой X Кохоненом самоорганизующихся карт (self-organizing maps).