Помощь в написании студенческих работ
Антистрессовый сервис

Классификация тезаурусов. 
Создание электронного тезауруса по дисциплине "Компьютерные сети"

РефератПомощь в написанииУзнать стоимостьмоей работы

Политематические (многоотраслевые). Примером одного из первых отечественных политематических тезаурусов может служить «Тезаурус научно-технических терминов», подготовленный и изданный в 1972 г. под руководством доктора технических наук Ю. И. Шемакина. Этот ИПТ содержал 19 000 терминов по прикладным областям знания и был предназначен для использования в автоматизированных системах управления… Читать ещё >

Классификация тезаурусов. Создание электронного тезауруса по дисциплине "Компьютерные сети" (реферат, курсовая, диплом, контрольная)

В настоящее время существует значительное число информационно-поисковых тезаурусов, разработанных как у нас в стране, так и за рубежом. В 70−90-ые годы ХХ века в нашей стране было разработано большое количество ИПТ — свыше 200. В рамках программы кооперации между странами Евросоюза в области научной и технической информации была создана база данных Thesaurus Guide, содержащая сведения о тезаурусах западноевропейских государств, а также США, Канады, Южной Америки, ЮАР и Австралии. По данным эта БД содержит сведения о 654 тезаурусах, действовавших в 1985 г. и доступных на одном из официальных языков Европейского сообщества. Несмотря на некоторое снижение интереса к ИПТ в 90-е годы ХХ в., в настоящее время наблюдается активизация исследований и разработок в сфере ИПТ, расширяются области их применения. Поэтому важно знать о том, какие виды отечественных и зарубежных ИПТ существуют.

Все многообразие ИПТ можно проанализировать, воспользовавшись такими их параметрами, как широта тематического охвата, назначение в АИС, системность построения, особенности состава лексики и внутриструктурного построения, количество естественных языков, форма представления и знаковая природа информации. В соответствии с выбранными основаниями деления выделяются следующие виды ИПТ:

  • 1. По широте тематического охвата:
  • 1) Политематические (многоотраслевые). Примером одного из первых отечественных политематических тезаурусов может служить «Тезаурус научно-технических терминов», подготовленный и изданный в 1972 г. под руководством доктора технических наук Ю. И. Шемакина. Этот ИПТ содержал 19 000 терминов по прикладным областям знания и был предназначен для использования в автоматизированных системах управления и обработки информации. В настоящее время крупнейшим русскоязычным политематическим тезаурусом является информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования в Университетской информационной системе «РОССИЯ» (УИС «Россия»). Он был разработан в 1995 г. Научно-исследовательским вычислительным центром МГУ им. М. В. Ломоносова (http://www.cir.ru"). Содержит терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы. Тезаурус включает 62 тысячи терминов, более 26 тысяч понятий, отражает около 100 тысяч отношений между понятиями.
  • 2) Отраслевые, составляющие наиболее многочисленную группу тезаурусов, например, ИПТ по информатике, подготовленный ВИНИТИ, серия отраслевых ИПТ, разработанных в 80-ые годы Кемеровским ЦНТИ (по технологии машиностроения, сельскому хозяйству, горному делу и др.). Среди масштабных отраслевых ИПТ, разработанных в последние годы, следует назвать информационно-поисковые тезаурусы ИНИОН по философии, экономике и демографии, правоведению, социологии, политологии.
  • 3) Узкоотраслевые или проблемные тезаурусы, предназначенные для поиска информации по отдельному внутриотраслевому направлению, например «Тезаурус по минералам», подготовленный ВИНИТИ, «Тезаурус по сталям», изданный кафедрой математической лингвистики ЛГУ, «Тезаурус терминологии гендерных исследований», разработанный А. А. Денисовой (http://www.owl.ru/gender/thesaurus.html), «Тезаурус по безопасности инженерных систем» др.
  • 2. По назначению различают:
  • 1) Базисные (базовые) ИПТ, представляющие собой политематические ИПТ, включающие основные понятия и их взаимосвязи, общие для нескольких тематических (отраслевых) подмассивов. В него включается лексика, обозначающая основные понятия комплекса наук: названия разделов наук, важнейшие научные категории, основные научные направления, понятия обобщенного, собирательного характера, лексика верхних уровней терминологической иерархии, лексико-семантические пересечения отраслевых ИПТ. Базисные ИПТ предназначены для использования в качестве лексико-семантической основы при построении, узкотематических рабочих тезаурусов. Таким образом достигается унификация рабочих тезаурусов и облегчается трудоемкий процесс их построения.
Базисные тезаурусы служат для выполнения следующих целей:
  • — для совместного использования с отраслевыми тезаурусами при глубоком индексировании документов и обеспечения достаточно полного покрытия смежной тематики, что позволяет при создании отраслевых тезаурусов несколько сузить их тематический охват, ограничиваясь лишь специфическими для отрасли понятиями;
  • — для самостоятельного использования при индексировании документов непрофильной и межотраслевой тематики;
  • — для осуществления нормативной функции: базисный тезаурус выступает как средство координации всех функционирующих в информационной системе ИПТ.

Базисные тезаурусы иногда называют макротезаурусами, подчеркивая тем самым то, что они включают лексические единицы высокой степени общности и покрывающие широкую область знаний.

  • 2) Рабочие ИПТ, используемые в реальных АИС. В качестве рабочих тезаурусов могут выступать отраслевые, узкоотраслевые или проблемные ИПТ, построенные на основе базисного тезауруса. Если базисные тезаурусы, выступающие в качестве нормативных пособий, включают только основную лексику той или иной отрасли, совокупности отраслей, и наиболее очевидные парадигматические отношения, то рабочие тезаурусы отличаются большим лексическим богатством и развитой парадигматикой. Следователь­но, семантическая сила рабочих ИПТ должна превосходить семантическую силу базисных тезаурусов. Особенностью рабочих тезаурусов является большое количество прагматических решений, имеющих силу только в рамках данной внутриотраслевой тема­тики. Рабочие ИПТ в специальной литературе фигурируют также под именем «микротезаурусы», что отражает как их небольшой объем, так и то, что они составляются на основе развития выборки из более общего ИПТ и дополнительно включают конкретные узкие понятия определенной области знания.
  • 3. По системности построения различают:
  • 1) Комплексы ИПТ. Комплекс ИПТ — это система тезаурусов по одной или нескольким отраслям знания, создаваемая в одной организации по единой методике.
  • 2) Отдельные ИПТ. Они отражают единичные попытки информационных служб и организаций, а также частных лиц создать ИПТ отраслевого или проблемного характера. Примерами таких ИПТ могут служить «Тезаурус по теоретической и прикладной лингвистике», разработанный С. Е. Никитиной, «Тезаурус терминологии гендерных исследований», созданный А. А. Денисовой и др.
  • 4. По особенностям состава лексики и внутриструктурного построения ИПТ:
  • 1) ИПТ, включающие в свой состав в качестве лексических единиц как дескрипторы, так и аскрипторы.
  • 2) ИПТ, включающие в свой состав в качестве лексических единиц только дескрипторы.
  • 3) Фасетизированные ИПТ — ИПТ, созданные на базе фасетного анализа лексики.

Реализация фасетно-блочного принципа построения ИПТ направлена на решение проблемы совместимости тезаурусов как внутри одной отрасли, так и в родственных отраслях, давая возможность обмениваться как отдельными лексическими единицами, так и их блоками, вплоть до объединения ИПТ в сводный тезаурус.

  • 5. По форме представления:
  • 1) ИПТ в печатном виде.
  • 2) ИПТ на машиночитаемых носителях, представленные на микрофишах, компакт-дисках, в форме электронных сетевых версий и др.

Наибольшее распространение нашли ИПТ, реализованные одновременно как на традиционных, так и на машиночитаемых носителях информации.

Следует подчеркнуть, что компьютерная реализация ИПТ повлекла за собой не только изменение формы их представления. Она обеспечила оперативность, а также удобство навигации и поиска информации. Так, например, гипертекстовая технология реализации тезауруса позволяет легко и быстро «передвигаться» по ИПТ, переходя от термина к его синониму, вышестоящим, нижестоящим и ассоциативным понятиям. Использование средств мультимедиа позволяет отражать в тезаурусе не только словесную (вербальную), но и звуковую и видеоинформацию (формульную, графическую, иллюстративную и др.), расширяя тем самым возможности ИПТ.

Классификация строится, главным образом, на материале современных тезаурусов английского языка с учетом вновь появившихся лексикографических произведений, представленных в печатном и электронном вариантах. В основу данной классификации положены следующие критерии:

  • — тип смысловых связей между единицами словника;
  • — объем словника;
  • — разработка значения лексем;
  • — грамматико-стилистическая квалификация лексем;
  • — демонстрация функционирования лексем;
  • — количество представленных языков;
  • — тип семиотических средств, используемых для семантизации лексем.

Классификация основывается на созданных ранее классификациях О. М. Карповой и И. Бурханова, а также на собственных результатах обзора более 30 словарей-тезаурусов. Терминология, используемая в классификации, введена в лексикографический аппарат В. В. Морковкиным, Ю. Н. Карауловым Ю.Н., И. Бурхановым, К. Марелло. Для максимально полного отображения типов существующих словарей-тезаурусов предлагаем создать многоуровневую классификацию.

Во-первых, по типу смысловых связей между единицами словника тезаурусы подразделяются на три крупных класса:

ѕ идеографический (идеологический) тезаурус;

ѕ аналогический тезаурус (терминология В.В. Морковкина);

ѕ ассоциативный тезаурус (терминология Ю.Н. Караулова).

Три данные типа тезаурусов отражают следующие виды смысловых связей лексем соответственно:

  • 1) Предметные или тематические связи, где объединение слов в одну группу происходит в силу сходства или общности функций обозначаемых словами предметов и процессов: предметы домашнего обихода, части тела, виды одежды, постройки и т. д. Таким образом, идеографический тезаурус — это лексикографическое произведение, представляющее лексические единицы в составе предметных (тематических) групп и организующее их в иерархическую структуру, предназначенную для репрезентации концептуализированного знания о мире.
  • 2) Лексико-семантические связи; объединение в группы с таким типом связи происходит по основному для слов признаку — лексическому значению. При этом также учитываются лексико-грамматические связи, в форме которых реализуются отдельные значения слов. Таким образом, аналогический тезаурус — это лексикографический справочник, основной единицей макроструктуры которого является лексико-семантическая группа; группы систематизированы в порядке алфавитного следования смысловых доминант.
  • 3) Семантико-синтаксические связи, на основании которых слова объединяются в группы или пары, предопределенные в своем возникновении и существовании двойными связями: смысловыми и синтаксическими. Смысловые связи слов устанавливаются, главным образом, между глаголами и прилагательными, выполняющими предикативную функцию в предложении, и существительными, например,
  • — между действием и органом (инструментом), при помощи которого оно совершается: хватать — рука, видеть — глаз, плыть — лодка и т. д.;
  • — между глаголами действия, требующими одного субъекта, и субъектом:

лаять — собака, ржать — лошадь и т. д.;

— между глаголами и определенным грамматическим дополнением, которого первые требуют: рубить — дерево, есть — еда и т. д.

Отсюда ассоциативный тезаурус — это словарь-тезаурус, организующий лексические единицы на основании существующих между ними смысловых и синтаксических связей и располагающий группы в соответствии с графической формой слов-центров.

В рамках того же критерия проводим дальнейшее подразделение типов. Так, идеографический тезаурус представлен 4-мя следующими типами:

  • 1. Собственно идеографический тезаурус;
  • 2. Тематический словарь;
  • 3. Систематический словарь;
  • 4. Тематико-систематический словарь (терминология И. Бурханова).

Собственно идеографический тезаурус — это особый тип идеографического словаря, макроструктура которого организуется в соответствии с синоптической картой. В отличие от других типов идеографического словаря, собственно идеографический тезаурус характеризуется логичной и строго упорядоченной классификационной структурой, созданной на основе научной таксономии, даже если лексикографическому описанию подвергается общая лексика. Тематический словарь — это особый тип идеографического тезауруса, основной единицей макроструктуры которого является тематическая группа, включающая лексемы, объединенные на основе классификации их денотатов (референтов) и рассматриваемые с точки зрения соответствия определенной теме.

Наличие синоптической карты в тематическом словаре является факультативным. Тематические словари, как правило, создаются для удовлетворения нужд иноязычных пользователей, поэтому список тем в таком словаре определяется степенью их значимости в коммуникативном пространстве пользователя. Систематический словарь — это особый тип идеографического тезауруса, классификационная структура которого предназначена для представления действительных семантических отношений, существующих между лексическими единицами языка. По своей сути классификационная структура представляет лексико-грамматическую классификацию вокабуляра, иными словами, его парадигматическую структуру, описанную с точки зрения подчинения и сочинения.

Тематико-систематический словарь — это особый тип идеографического словаря, представляющий собой сочетание тематического и систематического словаря.

Аналогический тезаурус, в свою очередь, подразделяется на 2 типа:

  • 1. Собственно аналогический тезаурус.
  • 2. Словарь синонимов / антонимов.

Считаем данное разделение правомочным на следующем основании. Ограничение лексико-семантических групп может проводиться по всему смысловому объему данного слова или по линии лишь некоторых его значений. Слова, пересекающиеся по одному значению и находящиеся в однотипных смысловых отношениях, образуют синонимический ряд, что всегда меньше по объему, чем лексико-семантическая группа.

Таким образом, словарь, отражающий сугубо синонимические/ антонимические отношения слов, можно считать отдельным типом аналогического тезауруса (словарь синонимов, антонимов). Опираясь на мнение Ю. Н. Караулова, полагаем, что ассоциативный тезаурус также подразделяется на подтипы:

  • 1. Ассоциативный словарь одного предъявления (условно, термин наш);
  • 2. Собственно ассоциативный тезаурус (термин Ю. Н. Караулова Ю.Н.).

Их принципиальное отличие состоит в следующем:

  • 1. Число стимулов в ассоциативных словарях 100 — 200; в ассоциативных тезаурусах — около 1000.
  • 2. Обычный ассоциативный словарь строится по результатам однократного предъявления стимулов. Программа составления ассоциативного тезауруса предусматривает три этапа: первый этап не отличается от традиционных ассоциативных экспериментов (по его итогам получается обычный ассоциативный словарь); на втором этапе в качестве стимулов используются реакции первого этапа; третий этап предполагает процедуру повторения второго этапа с использованием реакций этого этапа в качестве стимулов. Ассоциативное семантическое пространство после третьего этапа замыкается, так как не происходит приращения новых слов и смыслов в реакциях. Таким образом, ассоциативный тезаурус моделирует относительно замкнутое лексико-семантическое и грамматическое пространство, обслуживающее языковую жизнь социума.

Во-вторых, с точки зрения объема словника практически все существующие тезаурусы относятся к малым словарям, хотя количество лексических единиц, включенных в тот или иной справочник, различно (около 150 тыс.; около 800). Необходимо отметить, что в силу присущих им по их лексикографической природе черт тематические, тематика — систематические словари, словари синонимов/антонимов и ассоциативные тезаурусы издаются, главным образом, в малом объеме.

В-третьих, в отношении генерализованности/специфичности словника тезаурусы подразделяются на общие и специальные. Общие тезаурусы отражают лексику общелитературного языка. Специальные тезаурусы, в основном, отражают лексику языковых стилей:

  • 1. тезаурусы литературного языка могут быть представлены словарями языка писателя или отдельного произведения, словарем эвфемизмов и т. д.;
  • 2. разговорный стиль может быть представлен словарем сленга;
  • 3. территориальные языковые особенности раскрываются в диалектном идеографическом словаре;
  • 4. язык науки отражается в научно-технических тезаурусах (терминов) и т. д.

Следует упомянуть, что не были проанализированы специальные систематические, тематико-систематические словари, специальные словари синонимов/антонимов и специальные ассоциативные словари-тезаурусы.

В-четвертых, с точки зрения разработки значения лексем, существующие тезаурусы делятся на три основных категории:

  • 1. Кумулятивные — представляющие собой группировки лексем без определения их значений;
  • 2. Дефинитивные — содержащие одноязычное толкование каждой лексической единицы группировки (терминология К. Марелло);
  • 3. Переводные — раскрывающие смысл лексической единицы посредством другого языка.

Следует признать, что доминирующее положение пока сохраняют кумулятивные тезаурусы. Это, прежде всего, касается идеографических тезаурусов, ибо, исходя из положения о том, что данный тип словаря предназначен для носителей языка и призван, по возможности, охватывать весь лексический массив языка, определение каждой лексической единицы сделало бы его излишне громоздким и неудобным для пользователя. Однако словари нового поколения все чаще содержат определения и пополняют группу дефинитивных тезаурусов (главным образом, аналогические тезаурусы).

В-пятых и в-шестых, в отношении грамматико-стилистической квалификации, а также демонстрации функционирования лексем, существующие тезаурусы можно подразделить на полные и дифференцированные. Полные тезаурусы содержат исчерпывающие добавочные семантико-функциональные характеристики (ДСФХ) и богатый иллюстративный материал; соответственно, в дифференцированных тезаурусах система помет и иллюстративные примеры более скудные.

В-седьмых, по количеству представленных языков выделяются однои двуязычные тезаурусы. На наш взгляд, возможны также и многоязычные лексикографические произведения такого рода.

В-восьмых, с точки зрения типа семиотических средств, используемых для семантизации лексем, можно говорить о тезаурусах традиционного печатного исполнении, иллюстративных (картинных) словарях и словарях со смешанными семиотическими средствами. Новым словом в мировой лексикографии является комбинированный словарь. Основное его отличие — использование нескольких способов организации лексики. Алфавитный порядок слов в словнике, как правило, сочетается с индексом — тезаурусом, в котором все лексические единицы, представленные в словаре, объединяются в группы согласно области их использования или понятия, которое они выражают. Таким образом, можно выделить толково-идеографический (комбинированный) словарь, толково-аналогический (комбинированный) словарь и (потенциально) толково-ассоциативный (комбинированный) словарь. Растет число электронных комбинированных словарей, одновременно совмещающих в себе толковый, аналогический словари и, косвенно, словарь сочетаемости. Популярность приобретают специальные однои двуязычные словари, содержащие как лингвистическую, так и энциклопедическую информацию; проанализированные нами словари подобного рода в целом систематизируют лексику по общности графической формы, т. е. по алфавиту, но также снабжены подробным тематическим приложением. Более того, благодаря системе гиперссылок приложения пользователь может без труда обращаться к статьям денотативно связанных лексем, лексем-гипонимов (гиперонимов) и т. п. Такие словари-тезаурусы можно условно обозначить как лингвистико-энциклопедические комбинированные словари. Кроме того, благодаря усовершенствованным техническим возможностям словарей расширяются ДСФХ лексем; свидетельством того являются, например, озвученные словари, словарные статьи которых дают аудиопредставление лексем.

электронный тезаурус компьютерный сеть

Показать весь текст
Заполнить форму текущей работой