Документальные ИПС на ЭВМ
Система СМАРТ включат в себя различные типы ИПЯ и использовалась как экспериментальный инструмент для оценки эффективности различных семантических средств, вводимых в нее. Система обладала набором средств для анализа содержания с различных точек зрения посредством использования методов сопоставления слов, применения хранимых в памяти словарей, обеспечивающих сокращение расхождений в словарном… Читать ещё >
Документальные ИПС на ЭВМ (реферат, курсовая, диплом, контрольная)
В 50−60-е гг. XX в. активно разрабатывались ДИПС различного назначения. Несмотря на то что первые ДИПС создавались с применением устаревших технических средств, теоретические идеи и принципы их построения могут оказаться полезными для разработки и сравнительного анализа современных ДИПС. Поэтому кратко охарактеризуем их (табл. 6.7).
Таблица 6.7
Примеры ДИПС на ЭВМ
Название системы. | Дата создания и назначение. | Краткая характеристика. |
Система «Унитерм» (или система унитермов) | Предложена в 1951 г. Таубе[1] . Ее предметной областью является химия и химические технологии. | Информационно-поисковый язык системы (алфавит которого — 26 латинских букв) состоял из специализированных ключевых слов, означающих понятия предметной области, названных унитермами. Унитерм (Uniterm) — ключевое слово (как правило, простое), которое могло быть дополнено ссылкой или пояснительной пометкой, устраняющей синонимию, полисемию, омонимию. В качестве унитермов использовались имена собственные, географические и фирменные названия, специальные термины (в варианте Таубе — химические). В первом варианте системы не было словаря. В последующих вариантах появился анализ фиксированных в словаре словосочетаний, в которые не могли повторно входить уже использованные в словаре ключевые слова. Морфологические правила информационно-поискового языка — соответствовали правилам словообразования английского языка. Синтаксические средства отсутствовали. Система индексирования относится к типу систем свободного индексирования. При переводе на ИПЯ использовалась пословная замена слов индексируемого документа ключевыми словами. Тип критерия смыслового соответствия — КСС — " на вхождение" . Система «Унитерм» стала синонимом простейших ИПС без грамматики, использующей специализированные термины. Такие системы могут использоваться для предметных областей, в которых ПОД и 1103 могут быть составлены из специальных терминов этой предметной области (что имеет место, например, в химии, радиотехнике, в областях новых специальных технологий и т. п.). |
" Пустонепусто" (версии ПНП-2, ППП-4). | Разработана в Информэлектро. Областью функционирования системы являлась электротехника. | Режимы обслуживания — избирательное распространение информации (ПРИ) и ретроспективный поиск. Алфавит первоначального варианта ИПЯ состоял из 10 арабских цифр, а морфологическими правилами построения дескрипторов являлись правила образования десятичных чисел из цифр. Основным элементом ИПЯ являлся русско-дескрипторный и англо-дескрипторный словари, в которые включались одиночные слова естественных языков и, как исключения — словосочетания. В системе было предусмотрено алгоритмическое распознавание омонимии[2] |
Система предназначалась для поиска и обработки вторичных документов (рефератов, библиографических описаний, аннотаций), записанных на русском и английском языках. | Система индексирования представляет собой систему пословного перевода с русского и английского языка на язык системы. Использован КСС — «не вхождение с учетом базисных отношений» , т. е. документ выдается в том случае, если для каждого запроса в его поисковом образе документа встретился либо непосредственно дескриптор запроса, либо дескриптор, связанный с дескриптором запроса базисным отношением. Для реализации взаимосвязей в ДИПС ПНП-2 КСС формулируется в терминах «пустоты» и «непустоты» двух множеств (что и обусловило название этой ДИПС): М| - множество дескрипторов запроса, нс сравниваемых (не совпадающих и не связанных никакими базисными отношениями) ни с какими дескрипторами документа; М2 — множество дескрипторов запроса, которые связаны обратными отношениями с другими дескрипторами документа. Каждому из множеств поставлен в соответствие некоторый параметр т. Для любой пары ПОД-ПОЗ можно составить комбинации двоичных чисел, каждая из которых будет характеризовать степень смыслового соответствия между элементом и запросом. Из этих комбинаций выбираются предположительно содержащие больше релевантных, чем нерелевантных документов, и формируются эшелоны таким образом, чтобы вероятность выдачи в первом эшелоне была больше, чем в последнем. В ПНП-2 текст выдается в виде двух эшелонов: «Да» и «Может быть» или не выдается. В ДИПС ПНП-4 рассматривается 4 множества (i = 1, 2, 3,4) и их комбинация определяет 4 эшелона выдачи. | |
Система «Кристалл» . | Разработана для легкой промышленности[3]. Предназначена для хранения вторичных документов. | Информационный массив системы разделен на 8 тематических подмассивов, которым присвоены номера, включаемые в код вводимых документов. Режимы обслуживания — избирательное распределение информации (ИРИ), дифференцированное обслуживание руководителей (ДОР), ретроспективный поиск. КСС относится к типу критериев, основанных на весовых коэффициентах. Выдача — эшелонированная, в виде трех эшелонов, определяемых суммарным весом терминов. В ИПЯ предусмотрено 4 указателя роли. |
Система «СИНТОЛ» (SYNTOL = SYNTagmatic Organization Language = = язык с семантической организацией). | Информационно-поисковый язык СИНТОЛ, создан в 1960;1962 гг. Ж. К. Гардоном и др. (Национальный центр научных исследований Франции и Вычислительный центр Дома наук о человеке в Париже[4]). | По замыслу авторов система СИНТОЛ могла работать в различных режимах: как без грамматики, так и с грамматикой (простой или развитой). ИПЯ СИНТОЛ представляет собой семейство информационных языков, обладающих различной семантической силой. Языки, входящие в это семейство, были разработаны таким образом, что язык с большей семантической силой включал в себя целиком языки с меньшей семантической силой. В системе предусматривалась возможность преобразования запроса в логическую форму с использованием функций «не», «и», «или» . Минимальной синтаксической единицей является синтагма — двуместный предикат х Riу. где х и у — лексические единицы СИНТОЛа, каждая из которых относится к одной из 4-х квазиграмматических категорий этого ИПЯ, a Ri — одно из 4-х главных синтагматических отношений. Квазиграмматические категории слов: предикаты — понятия, которые употребляются со словами, обозначающими физические свойства и состояния, форму, размер, время и т. д.; сущности — существа, тела и объекты; состояния — пассивные свойства сущностей; действия — динамические свойства сущностей. Синтагматические отношения: предикативные — несимметричное (т.е. ориентированное) отношение между двумя словами, каждое из которых принадлежит к категории предикатов; ассоциативное — несимметричное статическое отношение зависимости между двумя понятиями (субъекта к действию, действия к его объекту или обстоятельствам, отношение принадлежности е, включения с и т. п.); консекутивные — несимметричные отношения динамического типа, которые существуют между двумя понятиями в тех случаях, когда присутствие одного из них влияет на состояние или положение другого (отношения типа «причина — следствие», «субъект — объект» и т. п.); координативные — симметричные (т.е. неориентированные) отношения (эквивалентности, сравнения, дифференциации и т. п.). Кроме этих 4-х главных синтагматических отношений, используется также 7 синтаксических операторов, которые присоединяются к одному из членов синтагмы с целью уточнения его логической роли. Из этих синтаксических операторов 4 предназначены для использования с терминами, которые связаны ассоциативными отношениями (инструментальный, места, цели и признака) и 3 — для использования с терминами, которые связаны координативными отношениями (сравнения, идентификации и дифференциации) |
Система «СМАРТ» (SMART — Salton’s Magical Automatic Retriever Texts — совершенная система поиска текстов. | Автоматизированная документальная поисковая система SMART разработана в Гарварде в 60-е гг. XX в. и была реализована в Гарвардском. | Система СМАРТ включат в себя различные типы ИПЯ и использовалась как экспериментальный инструмент для оценки эффективности различных семантических средств, вводимых в нее. Система обладала набором средств для анализа содержания с различных точек зрения посредством использования методов сопоставления слов, применения хранимых в памяти словарей, обеспечивающих сокращение расхождений в словарном составе, применения статистических и синтаксических методов установления связей между словами и понятиями и методов построения и анализа словосочетаний. Эти средства позволяли осуществлять поиск таким образом, что поисковые запросы, на которые получены неудовлетворительные ответы, обрабатывались снова при несколько измененных условиях. Полученный результат анализировался и, в зависимости от необходимости, производились дальнейшие изменения до тех пор, пока не выдавалась требуемая информация. |
Сэлтона (Salton иногда переводят — Солтон)[5] | и Корнельском университетах на вычислительных машинах IBM 7094 и IBM 360. Это была первая полностью автоматизированная система, которая обрабатывала тексты документов и запросов (на английском языке), и выдавала в качестве ответов на поисковые запросы документы, наиболее близкие к запросам. | С точки зрения принципов анализа документов в системе SMART заложены следующие средства:
|
Введенные в память ЭВМ документы и поисковые запросы обрабатываются без какого-либо предварительного ручного анализа путем использования одного из сотен методов автоматического анализа содержания. В результате производится идентификация документов, которые в наибольшей степени соответствуют данному поисковому запросу. Входные данные системы состояли из трех основных классов:
|
Поскольку система SMART получила наиболее широкую известность, приведем основные ее свойства.
- • Считается, что операции по анализу информации, заложенные в системе, являются достаточно полными и совершенными для того, чтобы обеспечить нахождение большей части релевантных материалов в ответ на большинство поисковых запросов.
- • Разнообразные нужды отдельных потребителей учитываются предоставлением им возможности выбрать ряд различных способов текстовой обработки и соответствующую последовательность методов проведения поиска до получения в конечном счете удовлетворительных результатов. Поиск может быть выполнен не только как единичный процесс, он может быть повторен при контроле со стороны потребителя в виде нескольких частичных поисков в необходимой предметной области.
- • Система может использоваться как средство для оценки эффективности разнообразных методов автоматического анализа документов; при этом может быть произведено сравнение результатов поиска для одних и тех же поисковых запросов, в одном и том же фонде документов, но при разных способах поиска.
- • Система может работать в реальном масштабе времени, т. е. таким образом, что разные потребители имеют одновременный доступ к массиву документов.
В нашей стране документальные информационно-поисковые системы разрабатывались для всех уровней ГСНТИ. На уровне государства создавалась интегрированная информационная система «Ассистент» (см. параграф 6.12).
- [1] Taube M., Gull C. D., Wachtel I. S. Unit Terms in Coordinate Indexing / M. Taube, C. D. Gull, I. S. Wachtel // Amer. Documentations. 1952. 3, 4. P. 213−218.
- [2] Лахути Д. Г. Автоматизированные документально-фактографические информационно-поисковые системы / Д. Г. Лахути // Итоги науки и техники. Сер. Информатика. Т. 12. М.: ВИНИТИ, 1988.
- [3] Юпатов Е. П. Отраслевая автоматизированная система информационного обеспечения «Кристалл-Легпром» / Е. П. Юпатов, И. Д. Коровякова, В. И. Тарасов. М.: ЦНИИТЭИЛегпром, 1970.
- [4] СИНТОЛ // Сборник переполов по вопросам информационной теории и практики. М.: ВИНИТИ. 1968. С. 36−47, 50−52, 66−72, 76−80.
- [5] Сэлтон Г. Автоматическая обработка, хранение и поиск информации / Г. Сэлтон. М.: Сов. радио, 1973.