По каждому запросу предлагается осуществлять обычный полнотекстовый поиск, использующий поиск документов по включению в них слов, содержащихся в запросе, и затем производить операцию поиска общего предложения запроса-фразы и отрывков документа, где встречаются найденные слова запроса. Далее, используя функцию оценки релевантности (описанную ниже), считаемую на обобщении, можно переупорядочить документы, в частности фильтровать документы, имеющие малое отношение к запросу.
Переход к числовому признаковому описанию
Мы строим дискретные числовые признаки описания общего двух предложений:
Для каждой общей части двух фраз определяются количества совпавших одновременно частей речи вместе со словом.
Когда слова разные, определяются количества совпавших частей речи.
Группировка некоторых близких форм частей речи (например, разные единственная и множественная формы одной части речи).
Тем самым осуществляется переход от структурного описания общего к числовому признаковому описанию, которое представляется в виде столбца неотрицательных целых чисел. На данном этапе мы теряем информацию о структуре «общего», но полагаем что информация о структуре, в первую очередь, нужна для нахождения общих частей, а для оценки «значимости» общей части достаточно выбранного признакового описания.
В данной работе рассматривается линейный вид функции релевантности, параметрами которой являются указанные выше числовые признаки. Таким образом, функция релевантности — линейная комбинация количества появлений в обобщениях фраз каждой из частей речи (с совпадением слова и без, то есть имеющие разные признаки и коэффициенты).