Помощь в написании студенческих работ
Антистрессовый сервис

Введение. 
Построение модели структурированных документов на основе машинного обучения

РефератПомощь в написанииУзнать стоимостьмоей работы

К этой же группе методов относится технология распознавания структурированных документов ABBYY FlexiLayout. В этой системе используется специализированная модель документа (структурное описание), позволяющая достичь большей гибкости по сравнению с простыми графовыми моделями. Модель состоит из описаний структурных элементов, соответствующих реквизитам документа. Для каждого элемента задаются его… Читать ещё >

Введение. Построение модели структурированных документов на основе машинного обучения (реферат, курсовая, диплом, контрольная)

С повсеместным внедрением информационных технологий и систем электронного документооборота серьезной проблемой становится преобразование информации с бумажных носителей в электронную форму. Она возникает не только при первоначальном заполнении данными информационной системы, но и при ее функционировании. Следовательно, необходимо обеспечить совместное существование электронных и бумажных технологий, что требует постоянного преобразования информации из одной формы в другую. Есть и другие причины, продлевающие использование бумажных носителей, — во многих ситуациях документ, напечатанный на бумаге, остается удобным средством хранения и передачи информации. Это особенно проявляется в случае официальных документов, так как электронный документ пока не имеет юридической силы.

Преобразование информации с бумажных носителей в электронную форму осуществляется системами оптического распознавания символов. Однако часто посимвольное преобразование является недостаточным, и для перевода информации в электронное представление требуется распознавание логической структуры документа. В настоящее время среди методов распознавания структурированных документов наибольшей гибкостью и точностью обладают методы, основанные на структурном распознавании образов [Farrow et al., 1995], [Hirayama, 1996]. В этих методах используется та или иная модель структуры документа. При распознавании модель сопоставляется и изображением документа, в результате чего определяется локализация его реквизитов. Наибольшее распространение получила графовая модель, в которой текстовые блоки и разделительные линии образуют узлы графа, а дугам графа соответствуют отношения между ними. В этом случае проблема анализа геометрической, а значит и логической структуры, сводится к задаче сравнения двух графов — графа описания документа и графа, полученного по изображению [Yuan, 1995].

К этой же группе методов относится технология распознавания структурированных документов ABBYY FlexiLayout. В этой системе используется специализированная модель документа (структурное описание), позволяющая достичь большей гибкости по сравнению с простыми графовыми моделями [Зуев, 1999]. Модель состоит из описаний структурных элементов, соответствующих реквизитам документа. Для каждого элемента задаются его характеристики, позволяющее локализовать структурный элемент на изображении. Т.о. в отличие от графовых моделей, где для построения графа изображения требуется априорное выделение структурных элементов, в системе FlexiLayout выделение структурных элементов происходит в процессе распознавания на основе описания документа и учитывает особенности конкретного типа документа. Помимо внутренних характеристик структурных элементов в описании могут быть заданы различные отношения между элементами.

Заметную сложность в применения рассмотренных методов распознавания документов составляет необходимость создания адекватной модели документа. При этом, если в случае достаточно простой модели (граф соседства) описание документа может быть достаточно просто построено автоматически, путем обучения на примерах, то в случае более продвинутых моделей, например используемой в системе FlexiLayout, требуется построение модели вручную для каждого типа документа. Для решения этой проблемы выглядит целесообразным применить методы машинного обучения.

Показать весь текст
Заполнить форму текущей работой