Программа последовательно считывает словоформы из проверяемого предложения текста, до признака конца предложения (сепараторы «.», «!», «?»). Далее производится вычисление первой хэш-функции и проверяется актуальность второй хэш-функции, то есть признака возникновения коллизии. Если.
.
то считывается кортеж.
.
где — словоформа из хэш-таблицы, — идентификатор словоформы, — показатель соответствия; если то вычисляется значение второй хэш-функции При просматривается следующая словоформа из предложения, если же, то считается, что словоформа предложения находится в хэш-таблице.
Блок-схема алгоритма поиска словоформ предложения в хэш-таблице представлена на рисунке 3:
Рис. 3. Блок-схема алгоритма поиска словоформ предложения в хэш-таблице
Поиск конфиденциальных сведений в предложении
На первом шаге осуществляется вычисление количества строк бинарной матрицы.
.
которые должен обработать каждый из потоков. Далее производится распараллеливание потоков в зависимости от архитектуры ЭВМ и вычисление выражения для каждой строки бинарной матрицы. При — признак j-го пункта Перечня вм предложении полагается найденным.
На третьем шаге с целью минимизации ложных срабатываний вычисляется показатель уверенности правила для понятий:
где.
— показатель соответствия словоформы понятию, который задается экспертно при формализации Перечня в диапазоне значений .
Если, то правило выполнено успешно, и мы получаем доказательство наличия сведений конфиденциального характера в тексте, где — порог уверенности заключения правила, заданный экспертно в диапазоне значений. Блок-схема алгоритма поиска конфиденциальных сведений в предложении представлена на рисунке 4:
Рис 4. Блок-схема алгоритма поиска конфиденциальных сведений в предложении