Помощь в написании студенческих работ
Антистрессовый сервис

Документальные ИПС на ЭВМ

РефератПомощь в написанииУзнать стоимостьмоей работы

Система СМАРТ включат в себя различные типы ИПЯ и использовалась как экспериментальный инструмент для оценки эффективности различных семантических средств, вводимых в нее. Система обладала набором средств для анализа содержания с различных точек зрения посредством использования методов сопоставления слов, применения хранимых в памяти словарей, обеспечивающих сокращение расхождений в словарном… Читать ещё >

Документальные ИПС на ЭВМ (реферат, курсовая, диплом, контрольная)

В 50−60-е гг. XX в. активно разрабатывались ДИПС различного назначения. Несмотря на то что первые ДИПС создавались с применением устаревших технических средств, теоретические идеи и принципы их построения могут оказаться полезными для разработки и сравнительного анализа современных ДИПС. Поэтому кратко охарактеризуем их (табл. 6.7).

Таблица 6.7

Примеры ДИПС на ЭВМ

Название системы.

Дата создания и назначение.

Краткая характеристика.

Система «Унитерм» (или система унитермов)

Предложена в 1951 г. Таубе[1] .

Ее предметной областью является химия и химические технологии.

Информационно-поисковый язык системы (алфавит которого — 26 латинских букв) состоял из специализированных ключевых слов, означающих понятия предметной области, названных унитермами.

Унитерм (Uniterm) — ключевое слово (как правило, простое), которое могло быть дополнено ссылкой или пояснительной пометкой, устраняющей синонимию, полисемию, омонимию. В качестве унитермов использовались имена собственные, географические и фирменные названия, специальные термины (в варианте Таубе — химические).

В первом варианте системы не было словаря. В последующих вариантах появился анализ фиксированных в словаре словосочетаний, в которые не могли повторно входить уже использованные в словаре ключевые слова.

Морфологические правила информационно-поискового языка — соответствовали правилам словообразования английского языка. Синтаксические средства отсутствовали. Система индексирования относится к типу систем свободного индексирования. При переводе на ИПЯ использовалась пословная замена слов индексируемого документа ключевыми словами.

Тип критерия смыслового соответствия — КСС — " на вхождение" .

Система «Унитерм» стала синонимом простейших ИПС без грамматики, использующей специализированные термины. Такие системы могут использоваться для предметных областей, в которых ПОД и 1103 могут быть составлены из специальных терминов этой предметной области (что имеет место, например, в химии, радиотехнике, в областях новых специальных технологий и т. п.).

" Пустонепусто" (версии ПНП-2, ППП-4).

Разработана в Информэлектро. Областью функционирования системы являлась электротехника.

Режимы обслуживания — избирательное распространение информации (ПРИ) и ретроспективный поиск.

Алфавит первоначального варианта ИПЯ состоял из 10 арабских цифр, а морфологическими правилами построения дескрипторов являлись правила образования десятичных чисел из цифр. Основным элементом ИПЯ являлся русско-дескрипторный и англо-дескрипторный словари, в которые включались одиночные слова естественных языков и, как исключения — словосочетания. В системе было предусмотрено алгоритмическое распознавание омонимии[2]

Система предназначалась для поиска и обработки вторичных документов (рефератов, библиографических описаний, аннотаций), записанных на русском и английском языках.

Система индексирования представляет собой систему пословного перевода с русского и английского языка на язык системы.

Использован КСС — «не вхождение с учетом базисных отношений» , т. е. документ выдается в том случае, если для каждого запроса в его поисковом образе документа встретился либо непосредственно дескриптор запроса, либо дескриптор, связанный с дескриптором запроса базисным отношением.

Для реализации взаимосвязей в ДИПС ПНП-2 КСС формулируется в терминах «пустоты» и «непустоты» двух множеств (что и обусловило название этой ДИПС): М| - множество дескрипторов запроса, нс сравниваемых (не совпадающих и не связанных никакими базисными отношениями) ни с какими дескрипторами документа;

М2 — множество дескрипторов запроса, которые связаны обратными отношениями с другими дескрипторами документа.

Каждому из множеств поставлен в соответствие некоторый параметр т.

Документальные ИПС на ЭВМ.

Для любой пары ПОД-ПОЗ можно составить комбинации двоичных чисел, каждая из которых будет характеризовать степень смыслового соответствия между элементом и запросом. Из этих комбинаций выбираются предположительно содержащие больше релевантных, чем нерелевантных документов, и формируются эшелоны таким образом, чтобы вероятность выдачи в первом эшелоне была больше, чем в последнем.

В ПНП-2 текст выдается в виде двух эшелонов: «Да» и «Может быть» или не выдается. В ДИПС ПНП-4 рассматривается 4 множества (i = 1, 2, 3,4) и их комбинация определяет 4 эшелона выдачи.

Система «Кристалл» .

Разработана для легкой промышленности[3]. Предназначена для хранения вторичных документов.

Информационный массив системы разделен на 8 тематических подмассивов, которым присвоены номера, включаемые в код вводимых документов.

Режимы обслуживания — избирательное распределение информации (ИРИ), дифференцированное обслуживание руководителей (ДОР), ретроспективный поиск.

КСС относится к типу критериев, основанных на весовых коэффициентах. Выдача — эшелонированная, в виде трех эшелонов, определяемых суммарным весом терминов.

В ИПЯ предусмотрено 4 указателя роли.

Система «СИНТОЛ» (SYNTOL = SYNTagmatic Organization Language = = язык с семантической организацией).

Информационно-поисковый язык СИНТОЛ, создан в 1960;1962 гг. Ж. К. Гардоном и др. (Национальный центр научных исследований Франции и Вычислительный центр Дома наук о человеке в Париже[4]).

По замыслу авторов система СИНТОЛ могла работать в различных режимах: как без грамматики, так и с грамматикой (простой или развитой).

ИПЯ СИНТОЛ представляет собой семейство информационных языков, обладающих различной семантической силой.

Языки, входящие в это семейство, были разработаны таким образом, что язык с большей семантической силой включал в себя целиком языки с меньшей семантической силой.

В системе предусматривалась возможность преобразования запроса в логическую форму с использованием функций «не», «и», «или» .

Минимальной синтаксической единицей является синтагма — двуместный предикат х Riу. где х и у — лексические единицы СИНТОЛа, каждая из которых относится к одной из 4-х квазиграмматических категорий этого ИПЯ, a Ri — одно из 4-х главных синтагматических отношений.

Квазиграмматические категории слов: предикаты — понятия, которые употребляются со словами, обозначающими физические свойства и состояния, форму, размер, время и т. д.; сущности — существа, тела и объекты; состояния — пассивные свойства сущностей; действия — динамические свойства сущностей.

Синтагматические отношения: предикативные — несимметричное (т.е. ориентированное) отношение между двумя словами, каждое из которых принадлежит к категории предикатов; ассоциативное — несимметричное статическое отношение зависимости между двумя понятиями (субъекта к действию, действия к его объекту или обстоятельствам, отношение принадлежности е, включения с и т. п.); консекутивные — несимметричные отношения динамического типа, которые существуют между двумя понятиями в тех случаях, когда присутствие одного из них влияет на состояние или положение другого (отношения типа «причина — следствие», «субъект — объект» и т. п.); координативные — симметричные (т.е. неориентированные) отношения (эквивалентности, сравнения, дифференциации и т. п.).

Кроме этих 4-х главных синтагматических отношений, используется также 7 синтаксических операторов, которые присоединяются к одному из членов синтагмы с целью уточнения его логической роли. Из этих синтаксических операторов 4 предназначены для использования с терминами, которые связаны ассоциативными отношениями (инструментальный, места, цели и признака) и 3 — для использования с терминами, которые связаны координативными отношениями (сравнения, идентификации и дифференциации)

Система «СМАРТ» (SMART — Salton’s Magical Automatic Retriever Texts — совершенная система поиска текстов.

Автоматизированная документальная поисковая система SMART разработана в Гарварде в 60-е гг.

XX в. и была реализована в Гарвардском.

Система СМАРТ включат в себя различные типы ИПЯ и использовалась как экспериментальный инструмент для оценки эффективности различных семантических средств, вводимых в нее. Система обладала набором средств для анализа содержания с различных точек зрения посредством использования методов сопоставления слов, применения хранимых в памяти словарей, обеспечивающих сокращение расхождений в словарном составе, применения статистических и синтаксических методов установления связей между словами и понятиями и методов построения и анализа словосочетаний. Эти средства позволяли осуществлять поиск таким образом, что поисковые запросы, на которые получены неудовлетворительные ответы, обрабатывались снова при несколько измененных условиях. Полученный результат анализировался и, в зависимости от необходимости, производились дальнейшие изменения до тех пор, пока не выдавалась требуемая информация.

Сэлтона (Salton иногда переводят — Солтон)[5]

и Корнельском университетах на вычислительных машинах IBM 7094 и IBM 360. Это была первая полностью автоматизированная система, которая обрабатывала тексты документов и запросов (на английском языке), и выдавала в качестве ответов на поисковые запросы документы, наиболее близкие к запросам.

С точки зрения принципов анализа документов в системе SMART заложены следующие средства:

  • 1. Система разделения английских слов на основы и аффиксы. Может быть использована для сокращения вводимых текстов до основ слов.
  • 2. Словарь синонимов, или тезаурус, использован для замены значащих слов номерами понятий, каждое из которых представляет класс основ слов, близких по смыслу.
  • 3. Иерархическая структура понятий, включенных в тезаурус, дает возможность для любого номера понятия найти их «родителя», «сыновей», «братьев» и множество возможных перекрестных ссылок.
  • 4. Методы статистических ассоциаций, которые применены для расчета коэффициентов подобия между словами, основами слов или понятиями.
  • 5. Методы синтаксического анализа позволяют распознать и использовать в качестве характеристик содержания документа словосочетания, состоящие из нескольких слов или понятий, связанных между собой определенными синтаксическими связями.
  • 6. Методы статистического распознавания словосочетаний используются подобно предшествующим методам синтаксического анализа на основе предварительно созданного словаря словосочетаний.
  • 7. Корреляционные способы сопоставления документов и запросов. Использован ряд различных корреляционных методов, включая учет весов понятий и длин текстов анализируемых документов. Предусмотрен КСС в форме аналитической функции, представляющей собой косинус угла между вектором ПОД и вектором ПОЗ

Введенные в память ЭВМ документы и поисковые запросы обрабатываются без какого-либо предварительного ручного анализа путем использования одного из сотен методов автоматического анализа содержания. В результате производится идентификация документов, которые в наибольшей степени соответствуют данному поисковому запросу.

Входные данные системы состояли из трех основных классов:

  • • словари, грамматики и иерархии. Определяют отношение между характеристиками входных текстов на английском языке и понятиями, которые в конечном счете использованы для отображения содержания документов и запросов;
  • • спецификации. Указывают, какие программы анализа содержания применимы и какие словари должны быть использованы в каждом конкретном случае. Спецификации необходимы также для установления массива документов, подлежащего обработке, для определения точного алгоритма сравнения документов с поисковыми запросами, для установления весовых коэффициентов понятий, полученных в результате применения различных методов анализа, для определения типа выходных данных и т. д.
  • • документы и поисковые запросы. Представляются в различных формах (либо только заглавие, либо рефераты и резюме, либо полный текст). Выходные данные, полученные в результате работы системы, выводятся в виде: печатных списков (включая, например, тексты документов в массиве), списков, не найденных при поиске в словарях слов, списков векторов документов, данных о корреляции и ответов, полученных системой на поисковые запросы

Поскольку система SMART получила наиболее широкую известность, приведем основные ее свойства.

  • • Считается, что операции по анализу информации, заложенные в системе, являются достаточно полными и совершенными для того, чтобы обеспечить нахождение большей части релевантных материалов в ответ на большинство поисковых запросов.
  • • Разнообразные нужды отдельных потребителей учитываются предоставлением им возможности выбрать ряд различных способов текстовой обработки и соответствующую последовательность методов проведения поиска до получения в конечном счете удовлетворительных результатов. Поиск может быть выполнен не только как единичный процесс, он может быть повторен при контроле со стороны потребителя в виде нескольких частичных поисков в необходимой предметной области.
  • • Система может использоваться как средство для оценки эффективности разнообразных методов автоматического анализа документов; при этом может быть произведено сравнение результатов поиска для одних и тех же поисковых запросов, в одном и том же фонде документов, но при разных способах поиска.
  • • Система может работать в реальном масштабе времени, т. е. таким образом, что разные потребители имеют одновременный доступ к массиву документов.

В нашей стране документальные информационно-поисковые системы разрабатывались для всех уровней ГСНТИ. На уровне государства создавалась интегрированная информационная система «Ассистент» (см. параграф 6.12).

  • [1] Taube M., Gull C. D., Wachtel I. S. Unit Terms in Coordinate Indexing / M. Taube, C. D. Gull, I. S. Wachtel // Amer. Documentations. 1952. 3, 4. P. 213−218.
  • [2] Лахути Д. Г. Автоматизированные документально-фактографические информационно-поисковые системы / Д. Г. Лахути // Итоги науки и техники. Сер. Информатика. Т. 12. М.: ВИНИТИ, 1988.
  • [3] Юпатов Е. П. Отраслевая автоматизированная система информационного обеспечения «Кристалл-Легпром» / Е. П. Юпатов, И. Д. Коровякова, В. И. Тарасов. М.: ЦНИИТЭИЛегпром, 1970.
  • [4] СИНТОЛ // Сборник переполов по вопросам информационной теории и практики. М.: ВИНИТИ. 1968. С. 36−47, 50−52, 66−72, 76−80.
  • [5] Сэлтон Г. Автоматическая обработка, хранение и поиск информации / Г. Сэлтон. М.: Сов. радио, 1973.
Показать весь текст
Заполнить форму текущей работой