Структурирование гипотез.
Словарная проверка

РефератПомощь в написанииУзнать стоимостьмоей работы

Структурирование гипотез. Словарная проверка (реферат, курсовая, диплом, контрольная)

По приведенным выше рисункам видно, насколько внушительным может быть объем генерируемых классификаторами на каждом логическом уровне документа гипотез. С целью оптимизации проверки оных в ABBYY FineReader задействован алгоритм обработки, предусматривающий структурирование гипотез в составе многоуровневых структур — моделей различных типов (словарное слово, несловарное слово, арабские цифры, римские цифры, URL, регулярное выражение и проч.). В результате такого структурирования количество подлежащих проверке гипотез существенно сокращается, и последующая проверка происходит максимально быстро и эффективно.

Чтобы читателю было проще вникнуть в механизм структурирования гипотез, рассмотрим его работу на примере слова turn. Предположим, что в процессе обработки данного слова системой было выдвинуто две гипотезы относительно возможного деления на символы: первая гипотеза соответствует прочтению tum, вторая — turn. Распознаватель, обработав изображения символов, предложил для каждого варианта деления некоторый ряд гипотез. Все они упорядочены в рамках структуры, строки которой соответствуют различным моделям.

Структурирование гипотез. Словарная проверка.

(рисунок 16. словарная проверка) В приведенном примере произойдет следующее: поскольку оценка гипотез, порожденных моделью английского слова, больше, чем гипотез от модели русского слова, то английские гипотезы попадут в начало списка. Гипотеза чисел будет иметь низкую оценку. После этого активируется проверка по словарю, которая подтвердит, что в словаре английского языка слова tum нет, а turn — есть. Следовательно, гипотеза относительно слова turn приобретет еще больший вес, что позволит ей в итоге оказаться доминирующей, а программе — без ошибок распознать символы. Важно отметить, что в OCR-системах ABBYY для некоторых языков предусмотрены словари и морфологические модели, которые позволяют генерировать все допустимые в языке словоформы. FineReader 11, например, имеет морфологическую поддержку 45 языков.

Сборка электронного документа

Реконструкция обработанного документа осуществляется FineReader в два этапа. Первый этап — страничный синтез — запускается на каждой странице сразу после выполнения соответствующих OCR-процедур, второй — документный синтез — начинает работу после распознавания всех страниц документа. Свою лепту на этапе синтеза документа вносит и технология ADRT, общие принципы и методы работы которой были рассмотрены ранее. Повторяясь, скажем, что именно благодаря им OCR-решения ABBYY могут практически «видеть» весь документ целиком и распознавать его не просто как набор символов и элементов, а как организованную, логически структурированную сущность.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Введение. Растровые модели пространственных данных

Тем не менее, используя простые приемы, например, включая взаимосвязи в таблицы атрибутов, можно организовать взаимосвязи и в растровых системах. Необходимо остановиться на вопросах точного отображения в растровых моделях. В растровых форматах в большинстве случаев неясно, относятся координаты к центральной точке пикселя или к одному т его углов. Поэтому точность привязки элемента растра…

Реферат