Программа FineReader
Широко используется в низкоуровневом программировании и компьютерной документации, поскольку в современных компьютерах минимальной единицей памяти является 8-битный байт, значения которого удобно записывать двумя шестнадцатеричными цифрами. Такое использование началось с системы IBM/360, где вся документация использовала шестнадцатеричную систему, в то время как в документации других компьютерных… Читать ещё >
Программа FineReader (реферат, курсовая, диплом, контрольная)
1. Системы счисления. Перевод чисел из одной системы счисления в другую
Шестнадцатеричная система счисления (шестнадцатеричные числа) — позиционная система счисления по целочисленному основанию 16. Обычно в качестве шестнадцатеричных цифр используются десятичные цифры от 0 до 9 и латинские буквы от A до F для обозначения цифр от 1010 до 1510, то есть (0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F).
Применение
Широко используется в низкоуровневом программировании и компьютерной документации, поскольку в современных компьютерах минимальной единицей памяти является 8-битный байт, значения которого удобно записывать двумя шестнадцатеричными цифрами. Такое использование началось с системы IBM/360, где вся документация использовала шестнадцатеричную систему, в то время как в документации других компьютерных систем того времени (даже с 8-битными символами, как, например, PDP-11 или БЭСМ-6) использовали восьмеричную систему.
В стандарте Юникода номер символа принято записывать в шестнадцатеричном виде, используя не менее 4 цифр (при необходимости — с ведущими нулями).
Шестнадцатеричный цвет — запись трёх компонент цвета (R, G и B) в шестнадцатеричном виде.
Способы записи В математике В математике основание системы счисления принято указывать в десятичной системе в нижнем индексе. Например, десятичное число 1443 можно записать как 144310 или как 5A316.
В языках программирования В разных языках программирования для записи шестнадцатеричных чисел используют различный синтаксис:
В Ада и VHDL такие числа указывают так: «16#5A3#».
В Си и языках схожего синтаксиса, например, в Java, используют префикс «0x». Например, «0x5A3».
В некоторых ассемблерах используют букву «h», которую ставят после числа. Например, «5A3h». При этом, если число начинается не с десятичной цифры, то для отличия от имён идентификаторов (например, констант) впереди ставится «0» (ноль): «0FFh» (25510)
Другие ассемблеры (AT&T, Motorola), а также Паскаль и некоторые версии Бейсика используют префикс «$». Например, «$ 5A3».
Некоторые иные платформы, например ZX Spectrum в своих ассемблерах (MASM, TASM, ALASM, GENS и т. д.) использовали запись #5A3, обычно выровненную до одного или двух байт: #05A3.
Другие версии Бейсика используют для указания шестнадцатеричных цифр сочетание «&h». Например, «&h5A3».
В Unix-подобных операционных системах (и многих языках программирования, имеющих корни в Unix/linux) непечатные символы при выводе/вводе кодируются как 0xCC, где CC — шестнадцатеричный код символа.
В электронных калькуляторах Б3−34 и ему подобные используют «-», «L», «C», «Г», «E» «» (space) на их экране.
Перевод чисел из одной системы счисления в другую Перевод чисел из шестнадцатеричной системы в десятичную Для перевода шестнадцатеричного числа в десятичное необходимо это число представить в виде суммы произведений степеней основания шестнадцатеричной системы счисления на соответствующие цифры в разрядах шестнадцатеричного числа.
Например, требуется перевести шестнадцатеричное число 5A3 в десятичное. В этом числе 3 цифры. В соответствии с вышеуказанным правилом представим его в виде суммы степеней с основанием 16:
5A316 = 3· 160+10·161+5·162= 3· 1+10·16+5·256 = 3+160+1280 = 14431
Перевод чисел из двоичной системы в шестнадцатеричную и наоборот Для перевода многозначного двоичного числа в шестнадцатеричную систему нужно разбить его на тетрады справа налево и заменить каждую тетраду соответствующей шестнадцатеричной цифрой. Для перевода числа из шестнадцатеричной системы в двоичную нужно заменить каждую его цифру на соответствующую тетраду из нижеприведенной таблицы перевода.
Например:
10 110 100 0112 = 0101 1010 0011 = 5A316
Таблица перевода чисел
0hex | = | 0dec | = | 0oct | ||||||||
1hex | = | 1dec | = | 1oct | ||||||||
2hex | = | 2dec | = | 2oct | ||||||||
3hex | = | 3dec | = | 3oct | ||||||||
4hex | = | 4dec | = | 4oct | ||||||||
5hex | = | 5dec | = | 5oct | ||||||||
6hex | = | 6dec | = | 6oct | ||||||||
7hex | = | 7dec | = | 7oct | ||||||||
8hex | = | 8dec | = | 10oct | ||||||||
9hex | = | 9dec | = | 11oct | ||||||||
Ahex | = | 10dec | = | 12oct | ||||||||
Bhex | = | 11dec | = | 13oct | ||||||||
Chex | = | 12dec | = | 14oct | ||||||||
Dhex | = | 13dec | = | 15oct | ||||||||
Ehex | = | 14dec | = | 16oct | ||||||||
Fhex | = | 15dec | = | 17oct | ||||||||
2. Виды системного программного обеспечения. операционные системы
Операционные системы Основная статья: Операционная система Операционная система — комплекс системных программ, расширяющий возможности вычислительной системы, а также обеспечивающий управление её ресурсами, загрузку и выполнение прикладных программ, взаимодействие с пользователями. В большинстве вычислительных систем ОС являются основной, наиболее важной (а иногда единственной) частью системного ПО.
Функции ОС Основные функции (простейшие ОС):
Загрузка приложений в оперативную память и их выполнение.
Стандартизованный доступ к периферийным устройствам (устройства ввода-вывода).
Управление оперативной памятью (распределение между процессами, виртуальная память).
Управление доступом к данным на энергонезависимых носителях (таких как жёсткий диск, компакт-диск и т. д.), организованным в той или иной файловой системе.
Пользовательский интерфейс.
Сетевые операции, поддержка стека протоколов.
Дополнительные функции:
Параллельное или псевдопараллельное выполнение задач (многозадачность).
Взаимодействие между процессами: обмен данными, взаимная синхронизация.
Защита самой системы, а также пользовательских данных и программ от действий пользователей (злонамеренных или по незнанию) или приложений.
Разграничение прав доступа и многопользовательский режим работы (аутентификация, авторизация).
Понятие операционной системы Существуют две группы определений ОС: «совокупность программ, управляющих оборудованием» и «совокупность программ, управляющих другими программами». Обе они имеют свой точный технический смысл, который, однако, становится ясен только при более детальном рассмотрении вопроса о том, зачем вообще нужны операционные системы.
Есть приложения вычислительной техники, для которых ОС излишни. Например, встроенные микрокомпьютеры содержатся сегодня во многих бытовых приборах, автомобилях (иногда по десятку в каждом), сотовых телефонах и т. п. Зачастую такой компьютер постоянно исполняет лишь одну программу, запускающуюся по включении. И простые игровые приставки — также представляющие собой специализированные микрокомпьютеры — могут обходиться без ОС, запуская при включении программу, записанную на вставленном в устройство «картридже» или компакт-диске. Тем не менее, некоторые микрокомпьютеры и игровые приставки всё же работают под управлением особых собственных ОС. В большинстве случаев, это UNIX-подобные системы (последнее особенно верно в отношении программируемого коммутационного оборудования: файрволов, маршрутизаторов).
Основные идеи ОС Предшественником ОС следует считать служебные программы (загрузчики и мониторы), а также библиотеки часто используемых подпрограмм, начавшие разрабатываться с появлением универсальных компьютеров 1-го поколения (конец 1940;х годов). Служебные программы минимизировали физические манипуляции оператора с оборудованием, а библиотеки позволяли избежать многократного программирования одних и тех же действий (осуществления операций ввода-вывода, вычисления математических функций и т. п.).
В 1950;60-х годах сформировались и были реализованы основные идеи, определяющие функциональность ОС: пакетный режим, разделение времени и многозадачность, разделение полномочий, реальный масштаб времени, файловые структуры и файловые системы. 1]
3. Виды и модели баз данных. Элементы базы данных
База данных — организованная в соответствии с определёнными правилами и поддерживаемая в памяти компьютера совокупность данных, характеризующая актуальное состояние некоторой предметной области и используемая для удовлетворения информационных потребностей пользователей.
База данных — совокупность данных, хранимых в соответствии со схемой данных, манипулирование которыми выполняют в соответствии с правилами средств моделирования данных.
База данных — некоторый набор перманентных (постоянно хранимых) данных, используемых прикладными программными системами какого-либо предприятия.
База данных — совместно используемый набор логически связанных данных (и описание этих данных), предназначенный для удовлетворения информационных потребностей организации.
Существует множество других определений, отражающих скорее субъективное мнение тех или иных авторов о том, что означает база данных (БД) в их понимании, однако общепризнанная единая формулировка отсутствует. Наиболее часто используются следующие отличительные признаки:
БД хранится и обрабатывается в вычислительной системе.
Таким образом, любые внекомпьютерные хранилища информации (архивы, библиотеки, картотеки и т. п.) базами данных не являются.
Данные в БД логически структурированы (систематизированы) с целью обеспечения возможности их эффективного поиска и обработки в вычислительной системе.
Структурированность подразумевает явное выделение составных частей (элементов), связей между ними, а также типизацию элементов и связей, при которой с типом элемента (связи) соотносится определённая семантика и допустимые операции.
БД включает метаданные, описывающие логическую структуру БД в формальном виде (в соответствии с некоторой метамоделью).
В соответствии с ГОСТ Р ИСО МЭК ТО 10 032−2007, «постоянные данные в среде базы данных включают в себя схему и базу данных. Схема включает в себя описания содержания, структуры и ограничений целостности, используемые для создания и поддержки базы данных. База данных включает в себя набор постоянных данных, определенных с помощью схемы. Система управления данными использует определения данных в схеме для обеспечения доступа и управления доступом к данным в базе данных».
Из перечисленных признаков только первый является строгим, а другие допускает различные трактовки и различные степени оценки. Можно лишь установить некоторую степень соответствия требованиям к БД.
В такой ситуации не последнюю роль играет общепринятая практика. В соответствии с ней, например, не называют базами данных файловые архивы, Интернет-порталы или электронные таблицы, несмотря на то, что они в некоторой степени обладают признаками БД. Принято считать, что эта степень в большинстве случаев недостаточна (хотя могут быть исключения).
Многие специалисты указывают на распространённую ошибку, состоящую в некорректном использовании термина «база данных» вместо термина «система управления базами данных», и указывают на необходимость различения этих понятий.
Виды баз данных Существует огромное количество разновидностей баз данных, отличающихся по различным критериям. Например, в «Энциклопедии технологий баз данных», по материалам которой написан данный раздел, определяются свыше 50 видов БД.
Основные классификации приведены ниже.
Классификация по модели данных Примеры:
Иерархическая
Сетевая
Реляционная
Объектная и объектно-ориентированная
Объектно-реляционная
Функциональная.
Классификация по среде постоянного хранения Во вторичной памяти, или традиционная (англ. conventional database): средой постоянного хранения является периферийная энергонезависимая память (вторичная память) — как правило жёсткий диск.
В оперативную память СУБД помещает лишь кеш и данные для текущей обработки.
В оперативной памяти (англ. in-memory database, memory-resident database, main memory database): все данные на стадии исполнения находятся в оперативной памяти.
В третичной памяти (англ. tertiary database): средой постоянного хранения является отсоединяемое от сервера устройство массового хранения (третичная память), как правило на основе магнитных лент или оптических дисков.
Во вторичной памяти сервера хранится лишь каталог данных третичной памяти, файловый кеш и данные для текущей обработки; загрузка же самих данных требует специальной процедуры.
Классификация по содержимому Примеры:
Географическая
Историческая
Научная
Мультимедийная.
Классификация по степени распределённости Централизованная, или сосредоточенная (англ. centralized database): БД, полностью поддерживаемая на одном компьютере.
Распределённая (англ. distributed database): БД, составные части которой размещаются в различных узлах компьютерной сети в соответствии с каким-либо критерием.
Неоднородная (англ. heterogeneous distributed database): фрагменты распределённой БД в разных узлах сети поддерживаются средствами более одной СУБД
Однородная (англ. homogeneous distributed database): фрагменты распределённой БД в разных узлах сети поддерживаются средствами одной и той же СУБД.
Фрагментированная, или секционированная (англ. partitioned database): методом распределения данных является фрагментирование (партиционирование, секционирование), вертикальное или горизонтальное.
Тиражированная (англ. replicated database): методом распределения данных является тиражирование (репликация).
Другие виды БД Пространственная (англ. spatial database): БД, в которой поддерживаются пространственные свойства сущностей предметной области. Такие БД широко используются в геоинформационных системах.
Временная, или темпоральная (англ. temporal database): БД, в которой поддерживается какой-либо аспект времени, не считая времени, определяемого пользователем.
Пространственно-временная (англ. spatial-temporal database) БД: БД, в которой одновременно поддерживается одно или более измерений в аспектах как пространства, так и времени.
Циклическая (англ. round-robin database): БД, объём хранимых данных которой не меняется со временем, поскольку в процессе сохранения данных одни и те же записи используются циклически.
Сверхбольшие базы данных Сверхбольшая база данных (англ. Very Large Database, VLDB) — это база данных, которая занимает чрезвычайно большой объём на устройстве физического хранения. Термин подразумевает максимально возможные объёмы БД, которые определяются последними достижениями в технологиях физического хранения данных и в технологиях программного оперирования данными.
Количественное определение понятия «чрезвычайно большой объём» меняется во времени; в настоящее время считается, что это объём, измеряемый по меньшей мере петабайтами. Для сравнения, в 2005 г. самыми крупными в мире считались базы данных с объёмом хранилища порядка 100 терабайт.
Специалисты отмечают необходимость особых подходов к проектированию сверхбольших БД. Для их создания нередко выполняются специальные проекты с целью поиска таких системотехнических решений, которые позволили бы хоть как-то работать с такими большими объёмами данных. Как правило необходимы специальные решения для дисковой подсистемы, специальные версии операционной среды и специальные механизмы обращения СУБД к данным.
Исследования в области хранения и обработки сверхбольших баз данных VLDB всегда находятся на острие теории и практики баз данных. В частности, с 1975 года проходит ежегодная конференция International Conference on Very Large Data Bases («Международная конференция по сверхбольшим базам данных»). Большинство исследований проводится под эгидой некоммерческой организации VLDB Endowment (Фонд целевого капитала «VLDB»), которая обеспечивает продвижение научных работ и обмен информацией в области сверхбольших БД и смежных областях. 1]
4. Интернет в России
По уровню доступа к информационным технологиям Россия находится в верхней трети рейтинга (на 48-м месте из 159 стран.), и это лучший результат среди стран СНГ. При этом темпы роста превосходят западные.
По итогам весны 2010 года в России насчитывалось 43,3 млн. интернет-пользователей (тех, кто выходил в Интернет хотя бы раз за последний месяц), недельная аудитория 39,2 млн. человек, а ежедневная — 29,4 млн. Динамика роста российской интернет-аудитории с 2000 по 2010 гг. составила 1826%.
По состоянию на 2010 год каждая четвёртая семья в России обеспечена широкополосным Интернетом (25,5% квартир имеют интернет-доступ на скорости не менее одного мегабита в секунду).
В конце 2010 года согласно отчету Morgan Stanley, Россия вошла в пятерку стран с самым большим интернет-рынком. Согласно данным интернет-аудитория в России составляет 60 млн. пользователей или 42% населения, выросла на 31% за последний год — это самый быстрый рост в пятёрке, активно перемещается на мобильные устройства — охват скоростного мобильного Интернета (3G) вырос за год на 81% и достиг 5% аудитории.
У России есть два доменных имени: .ru и .рф, также используется .su.
На российском рынке присутствуют крупные интернет-компании, такие как Google.
Самыми популярными сайтами в России, по данным Alexa.com, являются следующие: Яндекс, Google, Почта@Mail.ru, В Контакте, You Tube, Face book, Википедия, Live Journal, Одноклассники.ru.
30 сентября в России отмечается День Интернета.
Согласно результатам исследования, вклад интернет-экономики в ВВП России к 2015 году может увеличиться более чем в два раза до 3,7 процента ВВП. В 2009 году доля интернет-экономики составила 1,6 процента ВВП или 19,3 миллиарда долларов. Сейчас Россия по доле интернет-экономики в ВВП находится на уровне Испании (2,2 процента) и Италии (1,9 процента).
В сентябре 2011 года Россия обогнала Германию по числу интернет-пользователей и впервые заняла первое место в Европе. 1]
5. Основные положения программы
Системы оптического распознавания текстов — предназначены для конвертирования в редактируемые форматы отсканированных документов, PDF-документов и файлов изображений, включая цифровые фотографии.
Преимущества программы
Скорость и высокая точность распознавания Используемая система оптического распознавания быстро и точно распознает и максимально полно сохраняет исходное оформление документа (в том числе с текстом на фоне картинок, с цветным текстом на цветном фоне, с обтеканием картинок текстом и т. д.).
Благодаря технологии адаптивного распознавания документов ADRT® (Adaptive Document Recognition Technology) позволяют анализировать и обрабатывать документ целиком, а не постранично. В результате восстанавливается исходная структура документа, включая форматирование, гиперссылки, адреса электронной почты, а также колонтитулы, подписи к картинкам и диаграммам, номера страниц и сноски.
— Распознают документы, написанные на одном или нескольких из 189 языков, включая арабский, вьетнамский, корейский, китайский, японский, тайский и иврит. В программу встроена функция автоматического определения языка документа.
— Еще одной особенностью программ является малая чувствительность к дефектам печати и способность распознавать тексты, набранные практически любыми шрифтами.
— Программы включают широкий спектр работы с результатами распознавания — документы можно сохранять в различных форматах, отправлять по электронной почте, а также передавать в другие приложения для дальнейшей обработки.
Простота и удобство использования
— Они имеют простой и интуитивно понятный интерфейс, который позволяет работать с программой без дополнительной подготовки, освоив основные операции в самые короткие сроки. Поддерживаемые программой языки интерфейса можно переключать непосредственно из программы.
— Встроенные задачи программ охватывают список наиболее часто используемых задач по конвертированию отсканированных документов, PDF и файлов изображений в редактируемые форматы и позволяют получить электронный документ одним нажатием кнопки.
— Благодаря интеграции с Microsoft Office и Проводником Windows, вы можете распознать документ непосредственно при работе с Microsoft Outlook, Microsoft Word, Microsoft Excel и Проводником Windows.
Программы имеют встроенную справку, содержащую примеры использования для решения сложных задач конвертирования. 3]
6. Возможности программы сканирования и распознавания текста Fine Reader
На сегодняшний день лучшей в мире программой распознавания текстов является московская программа Fine Reader, которую мы и будем изучать.
Как правильно класть документ в сканер Установите сканер возле себя на столе так, чтобы крышку вы открывали от себя, а шнуры подключения питания и соединения с компьютером входили в заднюю стенку сканера.
Документ закладывается текстом вниз, по направлению к стеклу сканера. В одних сканерах (чаще) документ ориентируется так, чтобы верхняя часть текста страницы была направлена на Вас (книжная ориентация) или верхняя часть разворота книги была слева (альбомная ориентация). В других сканерах наоборот: верхняя часть текста должна быть направлена к задней стенке сканера (книжная ориентация) или к правой стенке сканера (альбомная ориентация).
Общее правило такое. Верхняя часть текста должна находиться там, откуда стартует лампа сканера. Это будет правильная книжная ориентация. При книжной ориентации лампа сканера проходит текст сверху вниз. А правильная альбомная ориентация текста получается поворотом на 90 градусов по часовой стрелке. То есть, при альбомной ориентации лампа сканера должна проходить по тексту справа налево или против направления чтения.
Если лист положен правильно, тогда можно отключить автоматическое определение ориентации страницы, что ускорит распознавание текста.
Сканирование и распознавание
FineReader содержит в своём меню различные команды для сканирования и распознавания текста. Простейшая из команд — «Сканировать и распознать» из меню «Процесс». По этой команде будет отсканирована и тут же распознана одна страница текста. После завершения распознавания вновь распознанный текст появится в окне «Текст». Курсор будет установлен на начало распознанного текста. Джоз обычно реагирует на это произнесением слова «Текст». После этого распознанный текст можно читать и править, как в обычном редакторе текстов.
Если Вы сканируете целую книгу, то удобно сначала отсканировать все страницы, а потом их распознать. Для этого нужно воспользоваться командой «Сканировать несколько страниц» из меню «Файл», а затем — командой «Распознать все» из меню «Процесс». Поначалу советую Вам устанавливать в настройках сканера флажок «Останавливаться между страницами». Тогда сканирование новой страницы не начнётся, пока Вы не нажмёте «Enter» в ответ на запрос программы. Зато Вы всегда будете успевать переворачивать страницы.
Перед сканированием книги не забудьте установить в настройках сканера признак альбомной ориентации изображения. А перед распознаванием не забудьте проверить язык распознавания текста в опциях FineReader.
Перечислим основные команды сканирования и распознавания.
" Control+d" - отсканировать и распознать одну страницу или разворот книги (меню «Процесс»)
" Control+k" - сканировать одну страницу (меню «Файл»).
" Control+Shift+k" - сканировать много страниц (меню «Файл»).
" Control+T" - остановить сканирование (меню «Файл»).
" Control+r" - распознать одну страницу (меню «Процесс»).
" Control+Shift+r" - распознать все страницы (меню «Процесс»).
" Сканировать и распознать несколько страниц" - команда из меню «Процесс» .
" Control+Shift+s" - вызов диалога Настройки сканера (в меню «Сервис» пункт «Настройки сканера»).
Если Вы сканируете разворот книги (альбомная ориентация текста), то можно установить опцию «Делить Разворот Книги» на вкладке «Сканирование» диалога «Опции». Это приведёт к тому, что после сканирования FineReader разделит два листа разворота на два разных файла и будет распознавать их отдельно. Такой метод улучшит качество распознавания и уменьшит количество ошибок. При сканировании отдельных страниц эту опцию можно убрать.
Однако, FineReader может не понять, что перед ним разворот книги и оставить этот разворот как страницу текста в две колонки.
А бывает и ещё хуже. Если текст идёт во много колонок, FineReader может разделить разворот не посредине, а в другом месте. И тогда Вы получите полстраницы и полторы страницы текста и гарантировано неправильное распознавание. Поэтому будьте осторожны с переключателем «Делить Разворот Книги». Применяйте его только к качественному тексту в хорошо разворачивающейся книге.
На месте разворота обычно происходит изгиб бумаги. Место изгиба после сканирования выглядит как тёмная полоса. Если в изгиб попадают буквы, то в этом месте изображение строки изгибается, а сами буквы искажаются. Ещё буквы могут попадать как бы в серую тень изгиба, частично или полностью теряясь. Многочисленные ошибки в концах или в начале строк говорят о том, что книгу нужно сильнее прижать на развороте, чтобы уменьшить изгиб.
Если книгу не удаётся достаточно хорошо развернуть, перейдите на серый режим сканирования. Это уменьшит влияние тени изгиба на крайние буквы и улучшит распознавание.
При сканировании разворота книги в диалоге «Настройки Сканера» необходимо установить «Альбомную Ориентацию Изображения», а при сканировании одной обычной страницы текста — «Книжную ориентацию» .
Текст нормального размера и качества печати можно сканировать при «Ручном подборе яркости» 50%. В «Режиме сканирования картинок» нужно установить «Чёрно-белое изображение» при «Разрешении» 300. Это самый быстрый режим сканирования.
Если буквы мелкие, увеличьте Разрешение до 400, 500 или 600.
Если качество печати плохое или книга совсем плохо разворачивается, перейдите к «Автоматическому Подбору Яркости» и в «Режиме Сканирования Картинок» установите «Серый». Это замедлит сканирование, но улучшит качество распознавания.
Все эти параметры устанавливаются в диалоге «Настройки Сканера» («Control+Shift+s»).
Если на листе встречаются серые пятна или из-за тонкой бумаги и жирного чёрного текста проступают буквы и рисунки с обратной стороны страницы, увеличивайте яркость сканирования, например, до 60 или до 70. Это приведёт к исчезновению пятен и проступающих с обратной стороны страницы букв и рисунков.
Если буквы слишком бледные, то уменьшите яркость сканирования, например, до 40. Это приведёт к тому, что буквы станут более чёткими и жирными, и их легче будет распознавать.
Если текст на листе расположен в несколько колонок, как в журнале или газете, то на вкладке «Сканирование» диалога «Опции» переключатель «Тип Страницы» необходимо установить в положение «Авто». А если это обычный книжный текст, то лучше поставить переключатель «Тип Текста» в значение «Одна Колонка», что ускорит распознавание. Для верности лучше всегда держать этот переключатель в режиме «Авто» .
Замечание. Если выставлен признак «Делить Разворот Книги», то книгу можно распознавать, установив переключатель «Тип текста» в значение «Одна колонка». Если же признак «Делить разворот книги» не выставлен, то обе страницы книги распознаются как один лист текста. То есть, получается текст, набранный в две колонки. Поэтому в таком случае необходимо установить переключатель «Тип текста» в положение «Авто», чтобы текст распознавался как состоящий из нескольких колонок.
Если нужно повторно отсканировать некоторые страницы, то установите на вкладке «Сканирование» диалога «Опции» признак «Запрашивать номер страницы перед добавлением в пакет». Это даст Вам возможность привести номер отсканированной страницы в пакете FineReader в соответствии с номером страницы в книге. Затем эту опцию можно будет отменить, так как дальше страницы будут нумероваться по порядку и добавляться в конец пакета.
Если текст распознаётся очень плохо или распознанный текст совсем нечитабелен, первым делом проверьте ориентацию страницы, то есть, правильно ли закладывается страница в сканер. Дальше проверьте на вкладке «Распознавание» диалога «Опции» самый первый параметр «Язык распознавания». Неправильно выбранный язык может привести к огромному количеству ошибок. Не ставьте «Русско-английский» язык распознавания, если в тексте нет английских букв, чтобы русские буквы не заменялись аналогичными по написанию английскими. И только после проверки языка распознавания увеличивайте разрешение сканирования и переходите к серому режиму сканирования.
Что такое Пакет
" Control+n" - создать новый пакет (меню «Файл»).
" Control+p" - открыть существующий пакет (меню «Файл»).
Когда Вы начинаете сканировать новую книгу, нужно создать для этого новый пакет. Это папка, в которую будут помещаться все файлы: отсканированные изображения, распознанные тексты и так далее.
Диалог создания и открытия пакета похож на диалог открытия и сохранения файла в Windows. Создание для каждой книги отдельного пакета гарантирует, что страницы разных книг не будут перемешиваться между собой. Продумайте имена для пакетов, чтобы Вам было в дальнейшем легко находить их.
" Alt+1″ - перейти в окно «Пакет» со списком отсканированных страниц.
" Курсорные клавиши" - передвижение по списку отсканированных страниц в окне «Пакет» .
" Control+a" - выделить все отсканированные страницы.
" Shift+курсорные стрелки" - выделение идущих подряд отсканированных страниц.
Выделенные страницы можно распознавать, удалять или перенумеровывать.
Например, Вы отсканировали страницы книги с 20 по 50, а в пакете они имеют номера от 1 до 31. Тогда нужно перейти в окно «Пакет» («Alt+1»), выделить все страницы пакета («Control+a») и задать номер первой странице равным 20 (команда «Перенумеровать страницы» из меню «Пакет»).
Находясь в окне «Пакет» (на какой-то из отсканированных страниц) и нажав «Enter «, Вы откроете окно «Текст», в котором находится распознанный текст этой страницы. Иначе в окне «Текст» будет текст просматривавшейся Вами ранее страницы.
" Любая цифра" - перейти к странице, номер которой начинается с этой цифры.
" Control+g" - перейти к распознанному тексту страницы с определённым номером.
" Control+f4″ - закрыть все остальные окна и перейти в окно «Пакет» .
Вычитка текста Из четырёх больших окон FineReader нас интересуют только два: окно со списком отсканированных страниц (окно «Пакет») и окно с распознанным текстом (окно «Текст»).
" Alt+3″ - перейти в окно «Текст» .
Здесь Вы можете работать, как в любом редакторе текстов. Можно выделять, удалять, копировать, вставлять текст. То есть, распознанный после сканирования текст можно править ещё до сохранения. Причём, Ваши исправления не пропадут, если Вы даже закроете FineReader, не сохранив исправленный текст в файл. Откорректированный Вами распознанный текст сохранится во внутренних файлах пакета. Только если Вы повторите распознавание страницы, распознанный текст изменится.
Обычно ошибки распознавания встречаются в местах с неуверенно распознанным текстом. Поэтому можно уделить основное внимание именно этим местам.
" F4″ - перейти к следующему месту с неуверенно распознанным текстом.
" Shift+F4″ - перейти к предыдущему месту с неуверенно распознанным текстом.
Сохранение текста
" Control+F2″ - вызов диалога сохранения текста в файл (меню «Файл»).
Диалог сохранения распознанного текста похож на диалог сохранения файла в Word. При открытии окна диалога курсор находится в поле имени файла. Задав имя файла, переходим при помощи табуляции к окну «Тип файла», где выбираем тип файла для сохраняемого текста.
Затем доходим при помощи табуляции до кнопки «Форматы». По пути можно проверить и изменить некоторые настройки. Если кнопка «Форматы» не нажимается клавишей «Enter», нажимаем её при помощи пробела. В крайнем случае применяем JAWS-курсор или курсор мышки. Делаем это так:
" Insert+минус на серой клавиатуре" - перемещаем курсор мышки на кнопку «Форматы» .
" Разделить на серой клавиатуре" - иммитируем нажатие левой кнопки мышки.
Открывается диалог «Форматы» .
Если мы хотим сохранить текст в формате «TXT», то нужно зайти на вкладку «TXT» и обратить внимание на окошко «Кодовая Страница». Выбираем здесь пункт «DOS Russian (866)» для сохранения текста в ДОС-формате или «Windows Кириллическая (1251)» для сохранения текста в формате Windows.
Дальше либо нажимаем «Enter «, чтобы сразу вернуться в диалог сохранения текста в файл, либо табулируем до кнопки «OK», устанавливая по пути в нужное состояние опции сохранения текста.
Например, при сохранении текста в формате «TXT» обязательно должна быть установлена опция «Сохранять деление на строки», чтобы текст в дальнейшем можно было читать «Блокнотом» в Windows 98 или программой «Reader» в ДОС.
Вернувшись в диалог сохранения текста, доходим при помощи табуляции до кнопки «Сохранить» и нажимаем её при помощи «Enter «или пробелом. Сохранённый таким образом текст можно будет в дальнейшем читать как в Windows при помощи Word, так и в ДОС при помощи чтеца Reader.
Альтернативным способом сохранения является команда «Передать выбранные страницы в Word «. Эта команда находится в меню «Файл». В этом случае FineReader запустит редактор Word, передаст ему выделенные Вами ранее распознанные страницы, и работа с текстом далее будет вестись по правилам редактора Word.
Настройка опций FineReader
" Control+Shift+o" - вызов диалога Опции (меню «Сервис»).
" Control+Tab" - переход на следующую вкладку диалога «Опции» .
" Tab" - переход к следующей опции на вкладке.
" Shift+Tab" - переход к предыдущей опции на вкладке.
" Пробел" - сброс или установка опции, на которой стоит курсор.
" Стрелки Вверх и Вниз" - Выбор из группы радиокнопок. Затем нужно табуляцией идти дальше по вкладке.
" F4″ ," Стрелка Вниз" или «Alt+Стрелка Вниз» — выбор значений в комбобоксе. Затем нужно табуляцией идти дальше по вкладке.
Замечание. Не забудьте после установки параметров нажать кнопку «OK» или «Закрыть», чтобы изменённые параметры сохранились.
Поначалу самым главным будет переключатель «Язык распознавания» на вкладке «Распознавание» .
Если настройки сканера вдруг предстанут перед Вами в незнакомом английском виде, загляните на вкладку «Сканирование» и установите радиокнопку «Использовать интерфейс FineReader». Если Ваш сканер совместим с FineReader, то диалог его настройки будет представлен в знакомом стандартном виде. В противном случае Вам придётся работать с оригинальным англоязычным интерфейсом драйвера Вашего сканера.
На вкладке «Общие» диалога «Опции» есть кнопки «Сохранить» и «Загрузить», которые позволяют сохранить установленные опции в виде файла или загрузить из файла сохранённые ранее опции.
Система помощи FineReader
" F1″ - вызов справки (меню «Справка»).
FineReader обладает очень подробной и хорошо структурированной справочной системой.
Диалог справки представляет собой два окна. В левом окне находится содержание, а в правом — сам текст справки. При запуске справки курсор находится в окне содержания.
Развернём для начала окно диалога справки. Для этого нажмём «Alt+Пробел» и дойдём затем «Стрелкой Вниз» до команды «Развернуть» .
Идём вниз по содержанию до интересующей нас темы. Мы движемся по нулевому уровню содержания. Здесь расположены названия глав.
Чтобы перейти на первый уровень оглавления, где расположены названия статей справки, нажимаем «Enter» или «Стрелку Вправо». JAWS озвучивает переход между уровнями оглавления, что очень удобно.
" Enter" - загрузка в правое окно текста статьи справки, на названии которой стоит курсор в левом окне содержания.
" F6″ - перейти в правое окно с текстом статьи справки и прослушать её содержимое.
" F6″ - вернуться в окно оглавления.
" Стрелка Влево" - Сворачивание развёрнутых ранее глав содержания справки.
Бытовой сканер имеет неподвижный продольный фотосчитыватель, снимающий изображение полосками. Изображение подсвечивается лампой и проецируется на фотосчитыватель зеркалом. Лампа и зеркало передвигаются под стеклом. Во время обратного хода можно переворачивать страницы. Закрывать крышку сканера не обязательно.
Обычно сканер соединяется с компьютером через скоростной USB-порт.
Сканирование можно производить в цветном, сером или чёрно-белом режимах. Ещё можно регулировать разрешение и яркость сканирования. Графический файл представляет собой, по сути, последовательность чисел. Каждое число задаёт номер оттенка цвета своей точки. Графические файлы с чёрно-белым, серым и цветным изображениями отличаются по размеру друг от друга на порядок.
Программа распознавания выделяет текст и рисунки из графического файла.
Важно не путать книжную и альбомную ориентации изображения.
FineReader обладает большим набором команд по сканированию и распознаванию текстов. Это можно делать как постранично, так и целыми книгами в непрерывном режиме. Сканирование и распознавание можно производить как раздельные операции. Можно установить режим, при котором FineReader выдаёт запрос на сканирование каждой новой страницы.
Если текст неправильно распознаётся, нужно сначала проверить ориентацию страницы и язык распознавания. И только потом переходить к серому режиму сканирования и увеличению разрешения сканера. Необходимо также помнить о режиме распознавания колонок в тексте.
Быстрее всего работа с нормальным текстом происходит при чёрно-белом режиме сканирования с разрешением 300 dpi и ручным режимом подбора яркости.
Перед сканированием новой книги нужно создать новый пакет.
При вычитке текста в первую очередь нужно уделять внимание местам с неуверенно распознанным текстом. Именно там имеется наибольшая вероятность появления ошибок распознавания.
FineReader может сохранить распознанные страницы (вместе или по отдельности) в форматы «DOC», «TXT», «HTML» и другие. Но может также вызвать соответствующие программы и передать им распознанный текст для дальнейшей обработки.
Настройка FineReader производится в диалоге «Опции», который вызывается из меню «Сервис». Из этого же меню вызывается диалог настройки сканера.
FineReader версии 6.0 обладает удивительно добротной справочной системой. 2]
Заключение
счисление программный сканирование Во время обучения программы FineReader я открыла для себя много новых возможностей.
Сегодня трудно представить нашу жизнь без компьютера. Ведь программные средства, установленные на компьютере, неотъемлемая часть компьютерной системы, необходимая для ее устойчивой работы. Работа с компьютером с каждым днем становится все проще. В наши дни учащиеся все меньше и меньше обращаются к книгам. Спрос рождает предложение, в связи с этим возникает необходимость создания универсальных учебных пособий, позволяющих повысить качество образования. Время, сэкономленное благодаря применению информационных и коммуникативных технологий, может быть отдано личному общению с окружающими, что немало важно.
1. Электронная энциклопедия, http://ru.wikipedia.org
2. Новая игра. сom, http://new.games.com
3. справка программы, FineReader