В работах [1,2] описаны априорные знания о естественном языке (ЕЯ), закладываемые в систему разработчиком (морфологические и синтаксические классы, основы и т. п.) и механизмы автоматического анализа незнакомых системе словоформ путем выдвижения предположений и их проверки с использованием произвольных ЕЯ-текстов. В работе [2] намечена также организация эталонной базы для описания объектов прикладных областей. Идеология организации базы и стиль взаимодействия с ней в основном базируются на классических работах [4,5,6]. При проверке предположений о схеме базы данных используются механизмы, аналогичные описанным в [3].
В данной работе рассматриваются идеологические детали эталонной базы и развивается аналогичный подход автоматического извлечения из ЕЯ-текстов информации, детализирующей априорные знания. При этом ЕЯ-тексты анализируются с использованием морфологии и синтаксиса, описанных в [1,2]. Поскольку в реляционных БД могут храниться весьма разнообразные объекты, в качестве первоочередных выбирались некоторые, обладающие достаточной общностью и/или практической значимостью, в частности: единицы измерения, валюты, сведения о времени, географические сведения и т. п.). Множество таких объектов не фиксировано и его предполагается в дальнейшем расширять.
Эталонная база реализует априорную модель и разрабатывается как стандартная реляционная СУБД. Отметим, что обычное концептуальное описание данных организуется как надстройка над конкретной СУБД и поэтому обладает ограниченной общностью. В отличие от этого априорная модель ориентирована на максимальную общность описания. В схеме априорной модели можно выделить таблицы, определяющие схему модели мира (заполняются разработчиком) и таблицы, реализующие собственно модель мира (в основном должны заполняться путем сканирования ЕЯ-текстов).