Открытые системы в информационно-ресурсных центрах
Ещё одна причина заключается в том, что использование открытых систем может оказать значительную поддержку развитию производства собственного программного обеспечения в Узбекистане. Такой подход позволяет не начинать разработки с нуля, а использовать богатый международный опыт для создания, на его основе, собственных программных продуктов. Адаптация готовых, проверенных, программных решений под… Читать ещё >
Открытые системы в информационно-ресурсных центрах (реферат, курсовая, диплом, контрольная)
Министерство по делам культуры и спорта Республики Узбекистан
ТАШКЕНТСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ КУЛЬТУРЫ ИМ. А. КАДЫРИ Кафедра «Математики, информатики и информационных технологий»
Дипломная робота на тему: «Открытые системы в информационно-ресурсных центрах»
5 320 200 — «Информатизация и библиотековедение»
Ташкент — 2010
ОГЛАВЛЕНИЕ ВВЕДЕНИЕ ГЛАВА 1 РЕТРОСПЕКТИВНЫЙ АНАЛИЗ ПРИМЕНЕНИЯ ОТКРЫТЫХ СИСТЕМ В БИБЛИОТЕЧНОМ ДЕЛЕ
1.1 Основные понятия и определения «открытые системы»
1.2 Применение открытых систем в информационной и библиотечной сферах.
ГЛАВА 2 ИССЛЕДОВАНИЕ ФУНКЦИОНАЛЬНЫХ ВОЗМОЖНОСТЕЙ СИСТЕМЫ GREENSTONE
2.1 Концептуальная модель цифровой библиотеки
2.2 Архитектура и основные характеристики Greenstone
2.3 Взаимодействие с системой.
ГЛАВА 3 ОРГАНИЗАЦИЯ ЦИФРОВОЙ БИБЛИОТЕКИ СРЕДСТВАМИ GREENSTONE
3.1 Установка и запуск системы
3.2 Проектирование коллекции
3.3 Рекомендации по применению системы Greenstone для библиотек Узбекистана.
ЗАКЛЮЧЕНИЕ
ВВЕДЕНИЕ
На пути перехода к развитому информационному обществу информация становится стратегическим ресурсом. В этом процессе возникают два важных вопроса: эффективное использование мировых информационных ресурсов и предоставление национальных информационных ресурсов пользователям мирового информационного сообщества. Положительное решение этих вопросов осуществляется современными библиотеками. Информационная революция начала 21-го века заметно скорректировала их роль. Традиционные печатные издания уже давно не являются основными носителями информации, а библиотеки, становятся объектами её производства. Динамика жизни в наши дни диктует жёсткие требования к умению ориентироваться в гигантских потоках информации и скорости извлечения из них действительно необходимых и ценных для нас данных. Применение новых информационных технологий позволяет библиотекам в сотни раз увеличить возможности и скорости доступа к искомой информации.
В целях совершенствования организации библиотечной сети с учетом современных требований, создания принципиально новых информационных центров, ориентированных на удовлетворение интеллектуальных потребностей подрастающего поколения, сохранения культурных, духовно-нравственных ценностей, а также создания необходимых условий для более широкого и системного информационного обеспечения населения Узбекистана в 2006 году вышло Постановление Президента Республики Узбекистан «Об организации информационно-библиотечного обеспечения населения республики». В этом постановлении, в частности, указывается создание нового типа библиотек — «информационно-ресурсных центров» (ИРЦ). Основными задачами данных центров определены:
· содействие систематическому образованию и самообразованию учащихся учебных заведений и населения с использованием современных информационных технологий;
· ведение широкой пропаганды национальных духовно-нравственных ценностей, обеспечение доступа к культурно-историческому наследию народа, предоставление возможностей для творческого развития духовно богатой и гармонично развитой личности;
· осуществление информационного обслуживания населения на основе новых информационных технологий (электронные базы данных, Интернет ресурсы);
· развитие сотрудничества с образовательными учреждениями, органами местного самоуправления, национальными культурными центрами для совместного осуществления культурных, образовательных, информационных и иных программ и проектов.
Согласно постановлению Президента Министерству финансов совместно с Министерством экономики Республики Узбекистан было поручено предусмотреть выделение, начиная с 2007 года, необходимых средств для компьютеризации информационно-ресурсных центров, с созданием в них электронных библиотек и внедрением прогрессивных информационных технологий. Это обстоятельство расширило финансовые и экономические возможности для внедрения информационных технологий в библиотечной сфере страны.
Полноценное решение указанных выше задач для ИРЦ сегодня немыслимо без широкого использования информационно-коммуникационных технологий. Однако автоматизация традиционных библиотек, организация электронных библиотек (ЭБ) и в целом создание всего комплекса информационного обеспечения этих учреждений — это сложные и дорогостоящие процессы. К настоящему времени в более чем 40 крупных библиотеках Республики Узбекистан внедрены автоматизированные библиотечно-информационные системы (АБИС). Отметим, что при этом в республике существует порядка 12 000 библиотек, многие из которых теперь формально имеют статус ИРЦ.
Стратегия реформирования библиотечной сферы в РУз предполагает создание единого информационного пространства — объединённые компьютерные сети, кооперацию при создании библиографических и полнотекстовых баз данных (БД) и т. д. с одновременной интеграцией в мировое информационное поле. Масштаб целей на лицо, и даже при планомерной государственной поддержке их достижение становится не тривиальной задачей, сопряжённой со всевозможными видами затрат от финансовых до временных.
Большинство библиотек стран СНГ, будучи довольно консервативным институтом, в деле формирования, организации и хранения цифровых информационных ресурсов, уже запаздывают на десяток лет по сравнению с зарубежными аналогами экономически развитых стран. А в современных реалиях такое отставание влечёт массу негативных сторон, что недопустимо.
В этой связи, актуальность темы данной работы объясняется необходимостью поиска эффективных и оптимальных путей достижения высокой степени внедрения и использования современных информационных технологий в библиотечно-информационной отрасли; методов организации и обработки цифровых информационных ресурсов. Особенно на фоне того, что реформирование предметной области пока находится на начальной стадии, а экономические ресурсы ограничены, как и состав высококвалифицированных специалистов, способных выдвигать и осуществлять инновационные идеи. Ведь порой не слишком грамотный подход к реализации сводит на нет как финансовые затраты, так и трудовые затраты.
Цель настоящей квалификационной работы — исследование, анализ и применение открытых систем при формировании, организации и хранении библиотечных электронных ресурсов.
Для реализации цели поставлены следующие задачи:
· провести анализ применения открытых систем в библиотечном деле;
· определить концептуальную модель цифровой библиотеки и этапы процесса её формирования;
· исследовать технические характеристики и функциональные возможности открытой системы Greenstone;
· выполнить практическую реализацию цифровой библиотеки средствами системы Greenstone;
· выработать ряд рекомендаций по применению системы Greenstone для библиотек Узбекистана.
Практическое значение. В квалификационной работе приведена стратегия выполнения проектов по организации цифровых библиотек с использованием открытых систем, а также подробно раскрыта технология формирования цифровых коллекций документов с применением Greenstone.
Структура работы обусловлена её целью и особенностями поставленных задач. Работа состоит из введения, 3-х глав, заключения и списка использованной литературы.
В первой главе дан анализ состояния проблемы, на основе изученных материалов.
Вторая глава посвящена архитектуре, возможностям и особенностям работы программного комплекса Greenstone.
В третьей главе приведёна практическая реализация цифровой библиотеки и даны рекомендации по применению системы Greenstone, что может быть использовано сотрудниками информационно-ресурсных центров в качестве практического руководства на начальном этапе эксплуатации программного комплекса.
ГЛАВА 1 РЕТРОСПЕКТИВНЫЙ АНАЛИЗ ПРИМЕНЕНИЯ ОТКРЫТЫХ СИСТЕМ В БИБЛИОТЕЧНОМ ДЕЛЕ
1.1 Основные понятия и определения «открытые системы»
Прежде всего, необходимо пояснить, что включает в себя понятие открытые системы. В широком смысле открытой системой может быть названа любая система (компьютер, вычислительная сеть, операционная система, программный пакет, другие аппаратные и программные продукты), которая построена в соответствии с открытыми спецификациями. В свою очередь, под открытыми спецификациями понимаются опубликованные, общедоступные спецификации, соответствующие стандартам и принятые в результате достижения согласия после всестороннего обсуждения всеми заинтересованными сторонами.
Для реальных систем полная открытость является недостижимым идеалом. Как правило, даже в системах, называемых открытыми, этому определению соответствуют лишь некоторые части, поддерживающие внешние интерфейсы. Например, открытость семейства операционных систем Unix заключается, кроме всего прочего, в наличии стандартизованного программного интерфейса между ядром и приложениями, что позволяет легко переносить приложения из среды одной версии Unix в среду другой версии.
Ярким примером открытой системы является международная сеть Интернет. Эта сеть развивалась в полном соответствии с требованиями, предъявляемыми к открытым системам. В разработке ее стандартов принимали участие тысячи специалистов-пользователей этой сети из различных университетов, научных организаций и фирм-производителей вычислительной аппаратуры и программного обеспечения, работающих в разных странах. Само название стандартов, определяющих работу сети Интернет — Request For Comments (RFC), что можно перевести как «запрос на комментарии», — показывает гласный и открытый характер принимаемых стандартов. В результате сеть Интернет сумела объединить в себе самое разнообразное оборудование и программное обеспечение огромного числа сетей, разбросанных по всему миру.
В настоящей работе под открытой системой понимается свободное открытое программное обеспечение. Часто оба определения свободное и открытое принимаются как синонимы, связано это с тем, что подавляющее большинство открытых программ являются одновременно и свободными. Однако это не совсем верно.
Открытое программное обеспечение (ПО) — это программы исходный код которых доступен для ознакомления в целях повышения эффективности работы программистов и исключения дублирования, одинаковых по сути алгоритмов. При этом открытое ПО может быть лицензировано и защищено законом об авторских правах, т. е. каждая копия программы является платной, а сам исходный код, хоть и открыт для ознакомления, в рамках данной программы не подлежит модификации или использованию в написании других программ. Условия распространения и использования чётко оговариваются в пользовательской лицензии.
Свободное ПО — это программы, главным признаком которых выступает тот факт, что они распространяются бесплатно. В англоязычных текстах часто возникает путаница, поскольку слово «free» по-английски означает не только «свободное», но и «бесплатное» и нередко употребляется по отношению к бесплатному программному обеспечению, которое распространяется без взимания платы за использование, но которое недоступно для изменения сообществом, потому что его исходные тексты не опубликованы. Такое бесплатное ПО вовсе не является свободным. Наоборот, свободное ПО вполне можно распространять (и распространяют), взимая при этом плату, однако, соблюдая при этом критерии свободы: каждому пользователю предоставляется право получить исходные тексты программ без дополнительной платы (за исключением цены носителя), изменять их и распространять далее.
Понятие свободного ПО берёт своё начало с проекта GNU (GNU's Not UNIX) — свободной UNIX-подобной операционной системы, автором которого является Ричард Столлман. Он сформулировал понятие свободное программное обеспечение, в котором отразились принципы открытой разработки программ в научном сообществе, сложившемся в американских университетах в 1970;е годы. Принципы, они же — критерии свободного программного обеспечения оговаривают те права, которые авторы свободных программ передают любому пользователю:
· программу можно свободно использовать с любой целью.
· можно изучать, работу программы и адаптировать её для своих целей.
· можно свободно распространять копии программы.
· программу можно свободно улучшать и публиковать свою улучшенную версию с тем, чтобы принести пользу всему сообществу.
Всякое программное обеспечение, пользователям которого не предоставляется таких прав, является несвободным — независимо от любых других условий.
Для того чтобы полностью соответствовать перечисленным критериям ПО должно быть как открытым так свободным. Чаще всего такие программы распространяются по лицензии, сформулированной Столлманом — это типовой договор автора программы (обладателя авторских прав) с пользователем, в котором автор, среди прочего, оговаривает права пользователя по отношению к программе. В отличие от типовой собственнической лицензии, лицензия Столлмана предоставляет пользователю права, являющиеся критериями свободной программы: получать исходные тексты программ, изменять их, распространять изменённые и неизменённые версии. Лицензия получила название GNU General Public License («генеральная Общественная лицензия GNU»), сокращённо GNU GPL или просто GPL.
Актуальность применения открытых систем сегодня объясняется рядом причин. Первая из них экономическая — так открытые системы бесплатны для конечного пользователя, то резко сокращаются финансовые затраты на приобретение ПО, что весьма существенно учитывая величину этой статьи расходов.
Вторая причина — отсутствие возможных юридических осложнений. Пока реальная ситуация такова, что отказ от повсеместного использования нелегального «пиратского» ПО не возможен. Однако в недалёкой перспективе в РУз в полной мере заработают механизмы соблюдения защиты авторских прав и интеллектуальной собственности. В этих условиях нелегальное использование ПО будет преследоваться в административном и уголовном порядке. Данные проблемы полностью снимаются при отказе от «пиратского» ПО в пользу открытых систем.
Ещё одна причина заключается в том, что использование открытых систем может оказать значительную поддержку развитию производства собственного программного обеспечения в Узбекистане. Такой подход позволяет не начинать разработки с нуля, а использовать богатый международный опыт для создания, на его основе, собственных программных продуктов. Адаптация готовых, проверенных, программных решений под требования предметных отраслей нашей страны, может быть выполнена в значительно более короткие сроки и с более высоким качеством. Здесь следует отметить, что речь идёт именно о поднятии уровня отечественного программирования, а не о коммерческом успехе, так как открытые системы чаще всего распространяются по лицензии GNU GPL. В данной лицензии оговаривается принципиальное защитное условие распространения свободного ПО: ни один пользователь, сделавший модифицированную версию свободной программы, не имеет права распространять её, не соблюдая всех принципов свободного ПО, то есть делать модификацию свободной программы несвободной.
1.2 Применение открытых систем в информационной и библиотечной сферах Уже сегодня в мире существует огромное количество бесплатного открытого ПО, охватывающее все группы: системное, прикладное (общего назначения) и специализированное. Библиотечно-информационной сфере здесь повезло, как никакой другой, так как ПО, специфичное для библиотечных процессов, представлено довольно широко.
Во многом такое положение дел стало возможным благодаря целенаправленной политике международных организаций и фондов по стимулированию разработки ПО для библиотечного дела и смежных отраслей. Ведущая роль здесь принадлежит ЮНЕСКО, мандат которой призван способствовать свободному движению идей словом и делом. Цель такой стратегии — сделать информацию и знания доступными для всех, преодолевая разрыв между информационно богатыми и информационно бедными странами. Данной организацией в 2000 году разработана и представлена на 67-й Генеральной Конференция ИФЛА в 2001 году программа «Информация для всех». Опубликовано несколько манифестов, также совместно с ИФЛА, например, о публичных библиотеках, Интернет и др. В рамках указанных программ, к настоящему времени, разработано немало программных средств для решения различных задач в области образования и культуры, в том числе библиотечной сфере.
Помимо стратегической поддержки таких организаций как ЮНЕСКО и ИФЛА наблюдается растущий интерес, особенно за рубежом, к разработке программного обеспечения для автоматизации своей деятельности на заказ — группами библиотек (консорциум), имеющих схожие требования и возможности. Финансирование проекта при этом производится в складчину и финансовая нагрузка на каждого отдельного участника сокращается. В заметном и весьма значительном числе случаев ставка делается на открытое программное обеспечение. Зачастую, разработанные таким образом, программные продукты затем распространяются совершенно свободно и могут стать полезным приобретением не только для библиотек-участниц, но и для сторонних библиотек.
Ещё одна современная тенденция, благодаря которой открытые системы всё чаще внедряются в библиотеках — компании, выпускающие свободное ПО для библиотек. Здесь мотивы библиотек выражаются в следующем — как правило, нет своих IT-отделов, трудно содержать высококлассных программистов, трудно доставать средства на платные, недешёвые, программно-технологические системы автоматизации, требующие регулярного обновления, и т. д. Со стороны компаний-разработчиков предлагается воспользоваться бесплатным ПО, а платить за адаптацию, настройки, доработки, хостинг и т. д. с заверениями в том, что всё это будет значительно дешевле. Однако такой механизм в станах СНГ пока не налажен в полной мере и требуется время на проверку его реальной работоспособности. Главным образом в вопросах качества и адекватности поставляемого ПО, также действительной стоимости такой «свободы».
Об интересе к вопросу использования открытых систем говорит тот факт, что в 2008 году в рамках ежегодной международной конференции «Крым», посвящённой проблемам библиотечной отрасли, была поднята отдельная тема: «Свободное и открытое программное обеспечение».
Наиболее широкое распространение открытые системы получили в США. Например, проект перевода тысяч редких исторических документов Библиотеки конгресса США в цифровой вид решено осуществлять с помощью ОС Linux и Open Source программ. Финансовую поддержку акции «Оцифровка американских документов в Библиотеке конгресса» оказала организация Sloan Foundation. По словам Брюстера Кале из Internet Archive (крупного архива, который в свое время полностью отказался от Windows, перейдя на платформу GNU/Linux), занимающегося разработкой технологии оцифровки, программное обеспечение с открытым кодом сыграет «абсолютно критическую» роль в реализации проекта.
В целом в публичных библиотеках США, доля открытого ПО от общего количества программных средств, составляет порядка 80−90%. Это связано с ролью библиотек в США, в особенности в сельских районах. Помимо целевого информационного обслуживания, библиотеки зачастую выполняют различную социальную деятельность (обучение, поиск работы, бесплатный доступ к Интернет, организация различных кружков по интересам и т. д.). То есть требуется большое количество рабочих мест пользователей (компьютеры с ПО), которые используются не только для библиотечных процессов, а вообще для различной работы.
Точно такая же тенденция наблюдается и в Российской Федерации. Так в соответствии с программой «Электронный Татарстан», Национальная библиотека, 46 центральных районных и 120 сельских библиотек Республики Татарстан были оснащены автоматизированными рабочими местами с подключением их к сети Интернет. Чтобы обеспечить доступ к информационным ресурсам всем желающим, было принято решение увеличить количество рабочих мест читателя за счет внедрения свободного программного обеспечения и использования экономичных терминальных персональных компьютеров для читателей. Использование ОС Linux, Open Source программ и отсутствие необходимости приобретать антивирусное ПО (так как Unix-подобные ОС практически не подвергаются вирусному заражению), позволило снизить стоимость рабочего места библиотекаря на 30% и стоимость рабочего места читателя на 50% по сравнению с ПК на основе проприетарного ПО.
Если говорить о применении открытых систем в целом в государственном секторе, к которому обычно относятся библиотеки, то за последние годы наблюдается положительная динамика в области разработки законопроектов, направленных на поддержку или официальное признание свободного ПО. Характерно, что большая часть таких законопроектов принимается в Европе (47,7%), Азии (27,7%) и Латинской Америке (15,2%), которые в совокупности обеспечивают более 90% мировой законодательной активности в этой области.
По данным Организации Объединенных Наций, из 178 стран — членов ООН 84 страны используют на серверах свободные операционные системы, что составляет 47% от общего числа этих стран. Операционная система Windows используется лишь 64 странами (36%).
В Европе многие случаи использования свободного ПО в государственном секторе можно охарактеризовать как «неосознанные», т. е. пользователи знают, что применяют такие программы, как Linux, Apache, MySQL, но при этом не осознают, что эти программы и есть открытые системы. Аналогичный вывод можно сделать и в отношении государственного сектора стран СНГ, в том числе Узбекистана, хотя точных данных об этом нет, что мешает выработке осознанной политики в этой области.
Наиболее распространенные свободные программы, используемые в публичном секторе Европы, — это операционная система Linux, СУБД MySQL, веб-сервер Apache, веб-браузер Mozilla, инструмент создания динамических веб-страниц PHP и офисный пакет OpenOffice.org (Рисунок 1).
В Бразилии существует закон, в соответствии с которым доля свободного ПО должна составлять не менее 80% от общего объема, хотя в настоящий момент такое соотношение не достигнуто. В Китае Linux установлена на 40−50% компьютеров, закупленных государством.
В настоящее время нельзя назвать страну, где государственная политика в области свободного ПО обладала бы образцовой последовательностью и результативностью. Свободные программы — относительно новое явление в жизни государства, и эффективные методы работы с этим ресурсом еще не выработаны. Внимание к интенсивному поиску методов внедрения открытых систем, в том числе на уровне государственной политики обусловлено некоторыми причинами. Как показывает практика, если нет желания довольствоваться половинчатыми результатами, то решать эти задачи следует комплексно, перенимая удачный опыт соседей.
Часто приходится сталкиваться с утверждением, что свободное ПО не нуждается в разработке какой-либо специальной государственной политики, если оно действительно обладает технологическими и ценовыми преимуществами. Это утверждение могло бы быть верно, если бы отдельно взятая программа эксплуатировалась в изоляции от других программ.
Рисунок 1 — Открытые системы, в государственном секторе Евросоюза, доля в %.
Авторское право © 2005 МЭСИТ. Источник: FLOSSPOLS Government Survey.
В качестве примеров можно привести несколько случаев неудачного опыта внедрения в разных странах, причём независимо от общего уровня использования информационных технологий в них.
Среди некоторых государственных организаций Шотландии наблюдался процесс обратной миграции с Linux на Windows, который был вызвана повышением эксплуатационных расходов по обмену информацией с другими учреждениями.
Внедрение 140 тысяч компьютеров с предустановленной ОС Linux в китайской провинции Цзянсу, объявленное в 2005 г., можно было бы считать самым крупным проектом по внедрению свободного ПО за всю историю, если бы не его дальнейшая судьба. Вскоре не знакомая операционная система была в большинстве случаев заменена более привычной ОС Windows.
Поставка компьютерного оборудования и медиатек для библиотек школ семи южных федеральных округов Российской Федерации имела довольно сомнительные результаты. Отсутствие технической и методической поддержки, неподготовленность сотрудников и пользователей, недостаточная «дружелюбность» к пользователям установленного ПО и неготовность поставщика вложить в сопровождение серьезные ресурсы лишили свободные программы шансов на успех. В результате Волгоградский комитет образования заключил соглашение с корпорацией Microsoft на закупку комплектов Windows Upgrade и MS Office.
Подобные ситуации возникают вследствие недостаточной продуманности на стадии разработки проектов. Уделяя внимание экономической стороне вопроса, часто не достаточно исследуется вопрос целесообразности использования открытых систем, т. е. конкретные цели их внедрения не имеют точного обоснования с практической точки зрения. Также, зачастую пренебрегают психологическим фактором — без создания необходимых условий для обеспечения перехода на использование свободного ПО, пользователи невольно возвращаются к привычным программным средствам.
Одним из способов достижения положительных результатов по проектам внедрения открытых систем, может служить комплекс взаимосвязанных мер, реализованных по схеме на рисунке 2.
Приведенные данные свидетельствуют о все большем укреплении позиций открытых систем в общей доле использования программного обеспечения. В разных странах имеются свои характерные особенности, но в целом тенденция одинакова. Внимание, уделяемое данной проблеме на различных уровнях, говорит о заинтересованности в более широком использовании открытых систем в государственном секторе, в частности библиотечно-информационной сфере. Преимущества подхода информатизации библиотечной отрасли на основе свободного открытого ПО превосходят имеющиеся недостатки и обеспечивают значительную экономию средств.
Рисунок 2 — Пошаговая схема процесса внедрения открытых систем.
ГЛАВА 2 ИССЛЕДОВАНИЕ ФУНКЦИОНАЛЬНЫХ ВОЗМОЖНОСТЕЙ СИСТЕМЫ GREENSTONE
Стремительное развитие и активное использование современных информационных и коммуникационных технологий повлекло за собой широкомасштабный перевод накопленной человечеством информации в электронную форму и созданию большого числа новых электронных информационных ресурсов. Эта новая форма представления информации в свою очередь потребовала качественно иной уровень организации процессов производства, хранения и распространения информации.
Обеспечение публичного (в том числе удаленного) доступа пользователей к информационным ресурсам стало одной из первоочередных задач обслуживания науки, культуры и образования. Сегодня, очевидно, что наиболее эффективно это достигается путем создания электронных библиотек — распределенных информационных систем, позволяющих надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (текст, графика, аудио, видео и др.), доступные в удобном для конечного пользователя виде через глобальные сети передачи данных.
Термин «электронная библиотека» до сих пор не имеет однозначной трактовки, в данной работе используется термин «цифровая библиотека», так как ЭБ — это более широкое понятие. Цифровая библиотека (ЦБ) здесь рассматривается как массив самостоятельных документов, имеющих электронную природу, а зачастую не имеющих аналога в печатной форме.
Учитывая тот факт, что в настоящее время любая библиотека имеет в наличии массив электронных документов, то необходимость выбора, внедрения и использования соответствующего ПО становится неизбежной.
2.1 Концептуальная модель цифровой библиотеки При разработке проекта по созданию цифровой библиотеки можно взять за основу типичную модель ЭБ. Концепция модели включает в себя триаду: Пользователи — Содержание — Технологии. В зависимости от ситуации меняется основной акцент на тот или иной элемент триады, например для научных библиотек основным вопросом является проблема информационного наполнения, т. е. содержания. Для большей части ВУЗовских или школьных ИРЦ на первом месте чаще всего стоит вопрос технологий, так как контингент пользователей и актуальные для них ресурсы известны заранее.
Рассмотрим подробнее приведённую триаду (Рисунок 3) применительно к информационно-ресурсным центрам.
ПОЛЬЗОВАТЕЛИ. Прежде чем начать проектирование ЦБ, необходимо определиться, кто же будет выступать в качестве пользователей, на кого направлена система. В качестве пользователей могут выступать учащиеся, студенты, ученые и просто читатели разных возрастов и профессий. Иначе говоря, необходимо выяснить спектр информационных потребностей, той целевой группы пользователей на которых, прежде всего ориентирован ИРЦ.
СОДЕРЖАНИЕ. Осознав информационные потребности ПОЛЬЗОВАТЕЛЕЙ, можно определиться с СОДЕРЖАНИЕМ. В качестве информационных объектов ЦБ могут быть научные публикации, книги, изображения, аудио и видео или любые другие наборы данных. По критерию «структуры» ресурсы могут быть разделены на документальные, структурированные, слабоструктурированные данные. В целом их можно охарактеризовать как весьма неоднородные, интеграция которых возможна только с использованием подходящих технологий.
ТЕХНОЛОГИИ. Технологическая часть разработки ЦБ представляет собой определенную структуру представления данных в системе. Функционирование ЦБ осуществляется, как правило, на основе web-технологий (серверы (Apache, Tomcat), web-браузеры (IE, Opera, FireFox), базы данных (MySQL, Access, Oracle, PostgraceSQL), телекоммуникационные сети и др.) и специализированного библиотечного ПО.
Рисунок 3 — Концептуальная модель разработки цифровой библиотеки Открытые системы подходящие для этой цели довольно многочисленны. К классу таких программ помимо Greenstone, относятся такие программные комплексы как DSpace, E-Prints, CDS Invenio, Open Digital Libraries и др.
Так как ИРЦ — это прямые наследники массовых библиотек, выбор в пользу Greenstone обусловлен его простотой. Greenstone не ориентирован конкретно на организацию научной информации, программа реализует эффективный процесс включения новых материалов (файлы Text, MS Word, PDF и др.), автоматически генерируя их он-лайн представление в формате HTML; обеспечивает простой механизм описания документов в соответствие формату Dublin Core; не отягощена излишней функциональностью, связанной с другими библиотечными процессами; формирует несколько видов индексов документов, в том числе и полнотекстовый.
2.2 Архитектура и основные характеристики Greenstone
В данном параграфе рассмотрим подробнее ПО Greenstone — эффективное Open Source решение для построения ЦБ, обеспечивающее поиск с предварительным индексированием по документам всех популярных форматов, которые могут быть представлены и в заархивированном виде. Система создает каталог документов, конвертирует их в XML-формат, а затем обеспечивает удалённый доступ к библиотеке по сети посредством браузера.
Краткое описание. Greenstone — комплексная система для построения и распространения коллекций ЦБ. Она обеспечивает способ организации и публикации информации в Интернете (или на CD-дисках). ПО разработано на факультете компьютерных наук университета Вайкато в Новой Зеландии в рамках проекта по созданию цифровых библиотек. Разработка проводилась при содействии ЮНЕСКО и неправительственной организации Human info. Распространяется с ноября 2000 года. В настоящее время Greenstone постоянно дорабатывается. ПО свободно доступно на сайте http://greenstone.org и отвечает условиям GNU.
Существует две версии Greenstone — локальная и сетевая. Система работает на платформах Windows и Unix с использованием стандартных Web-серверов.
Программный комплекс достаточно гибок в настройке, однако более значительная модификация функционала требует редактирования и перекомпиляции исходных кодов. Система надёжно функционирует даже на устаревших компьютерах, которые подчас массово списываются по причине не соответствия требованиям вновь появляющегося ПО. Однако при рациональном подходе и такая устаревшая техника может быть эффективно использована, что вполне актуально для малых библиотек, где наблюдается дефицит технического оснащения. Установка системы — тривиальный процесс и может быть выполнен людьми, обладающими минимальным уровнем компьютерной грамотности.
Здесь описывается ПО Greenstone 3, обретшее новую переработанную архитектуру, нацеленную на улучшение динамической природы инструментария. ПО основано на современных стандартах, таких как XML (и, в частности язык преобразований XSLT), современных методологиях реализации, таких как агентные системы, где используются протоколы обмена сообщениями между агентами типа SOAP. Главная особенность новой версии заключается в стратегии межплатформенной разработки (Java), современных схемах модульности и динамического обновления программного обеспечения. В числе достоинств Greenstone также международная языковая поддержка.
В настоящее время Greenstone широко используется многими организациями разных стран. На упомянутом выше сайте имеются ссылки на более чем 20 коллекций цифровых библиотек Greenstone. На сайте http://www.nzdl.org можно посмотреть более 50 коллекций ЦБ, созданных при содействии разработчиков системы. Показательные коллекции включают статьи из газет, технические документы, художественные книги, научные журналы, фольклор, аудио и видео информацию.
Кроме того, на базе Greenstone было разработано множество других видов коллекции, таких как: огромное количество простых персональных коллекций на основе контента, хранимого в локальной файловой системе: электронная почта, фотографии, документы Word, PDF, презентации PowerPoint, и т. д; крупномасштабный библиографический каталог радио и телевизионных архивов корпорации BBC, структурированный в виде нескольких подколлекций; детские цифровые библиотеки, реализующие индивидуальные рабочие пространства учеников и режим учителя для привилегированных действий, таких как добавление собственных текстов учеников к архиву и обновлению досок объявлений; коллекции разнородных электронных данных, например библиотечные хронологии, национальные коллекции газет, коллекции клипов MTV, а также коллекции музыки с поддержкой возможности прослушивания фрагментов.
Функции и возможности. ПО Greenstone предоставляет возможности:
· создавать коллекции электронных документов;
· детально определять документы в зависимости от метаданных;
· сохранять десятки Гб текста и связанных с ним изображений;
· осуществлять полнотекстовый поиск, а также поиск и просмотр документов по полям метаданных;
· документы, которые вносятся в коллекцию, и их метаданные могут иметь разные форматы;
· осуществлять обработку документов на каком-либо языке и поддерживать многоязычный интерфейс пользователя;
· организовывать и публиковать информацию в Интернете или на компакт-дисках;
· использовать стандартные и нестандартные метаданные для описания содержания документов.
Далее, остановимся на некоторых ключевых моментах.
ЦБ, созданная с помощью Greenstone, может содержать одну или множество коллекций документов. Легко поддерживаемые, эти коллекции могут быть дополнены и автоматически перестроены.
Коллекции — совокупность документов разных форматов, собранных вместе на основе обусловленных пользователем критериев и к которым применяются единые механизмы сохранения, индексации, поиска, просмотра и представления.
Коллекции могут состоять из сотен тысяч и даже миллионов документов. Коллекции могут включать документы разной природы.
Каждый текстовый документ может быть иерархически структурирован в виде вложенных разделов (разделы, подразделы, подподразделы и т. д.). Иерархическая структура разделов отображает содержательную структуру документа. Каждый из разделов, в свою очередь, состоит из одного или нескольких абзацев. Таким образом, структуризация содержания обычных документов на части, главы, разделы и т. д. представляется в документах Greenstone в виде иерархической структуры разделов Greenstone. Структура документа может использоваться при формировании поисковых индексов. Если входные документы не имеют структуры, то в коллекции Greenstone они могут быть представлены в виде последовательности страниц, что позволяет просматривать документы постранично.
Входные информационные ресурсы для построения коллекции могут располагаться: на локальном компьютере, в локальной сети и глобальной сети и доступны с использованием протоколов HTTP и FTP.
Входные документы могут иметь разные форматы, для поддержки импорта которых используются плагины (специальные утилиты импорта документов соответствующих форматов). Все входные документы, внесенные в систему Greenstone, конвертируются в формат архива Greenstone (Greenstone Archive Format). Система Greenstone каждому документу автоматически присваивает уникальный идентификатор OID (Object Identifier).
В Greenstone структура каждой коллекции определяется в процессе ее создания. Она включает определение формата используемых документов, их вывод на экран, источник метаданных, какие предметные показатели должны быть включены, какие следует предоставить полнотекстовые индексы, как должны отображаться результаты поиска. После того, как коллекция создана, в нее легко добавить новые документы при условии, что они того же формата, что и существующие документы, и что они имеют сходные метаданные. Каждая коллекция содержит файл конфигурации, в котором устанавливаются параметры построения и использования коллекции. Коллекции можно открыть для поиска и просмотра.
Архитектура. Нужно отметить, что рассматриваемая система Greenstone 3, сегодня, не является финальной версией, а находится в разработке. Тем не менее, это полностью работоспособная программа, в которой учтён опыт предыдущих версий и реализованы новые возможности. По соображениям мобильности в качестве языка реализации был выбран объектно-ориентированный язык программирования Java. В качестве средства коммуникации между модулями программы используются XML-кодированные сообщения.
Базовая система ЦБ Greenstone 3 состоит из «фоновой части», которую называют Сайтом, и «фронтальной части», обеспечивающей средства пользовательского интерфейса — Регистратора. Простой пример автономной цифровой библиотеки показан на рисунке 4. Точка контакта Регистратора с Сайтом — это Маршрутизатор сообщений, все системные коммуникации происходят через этот модуль. На рисунке 4 Сайт содержит две коллекции «Демо» и «Фао», а также сервисный кластер. Все функции, представляемые системой, называют сервисами. Например, AddDocument (Добавить документ) — сервис, который добавляет документ в коллекцию; ImportCollection (Импорт коллекции) — импортирует в систему готовую коллекцию со всеми документами. В кластере сгруппирован набор специфических сервисов, отвечающих за создание и формирование коллекций документов, доступных администратору.
Для пользователей же доступен отдельный кластер, объединяющий группу сервисов, связанных с поиском и просмотром массива документов в определённой коллекции. Так здесь, коллекция «Демо», содержит четыре взаимосвязанных сервиса: Текстовый запрос, Поиск источника, Поиск метаданных, Классифицированный просмотр.
Взаимодействие пользователя с системой осуществляется через Web-интерфейс. В окне браузера генерируется пользовательский интерфейс, а на стороне сервера запускается «Библиотечный сервлет». Сервлет принимает команды HTTP в форме URL и параметров и кодирует их в XML-сообщения для передачи Регистратору. Далее Регистратор принимает решение о выполнении различных действий, формирует собственные сообщения для других модулей и отправляет их в Маршрутизатор сообщений. Результаты работы сервисов и модулей (обратные XML-сообщения), в свою очередь, агрегируются и переводятся в форму Web-страниц для просмотра их пользователем.
Greenstone в полной мере реализует принцип динамичности. Администраторы имеют возможность добавлять новые коллекции, пользовательские интерфейсы или новые виды сервисов к работающей ЦБ без её остановки и перезапуска.
Независимые программные модули — «агенты», общаются посредством единственного метода вызова:
XMLвыход = процесс (XMLвход).
Такое решение позволяет сместить акценты в архитектуре приложения от интерфейсов программирования (API) к формам XML, где закодирована эквивалентная информация. Преимущество такого подхода в том, что при необходимости модификации системы можно просто изменить спецификацию XML и работа модулей продолжится согласно новой схеме. Напротив, в системе, где будущие изменения требуют изменения API, все модули обычно, должны быть перекомпилированы, что конечно более долгий и трудоёмкий процесс.
В данном случае была описана работа локальной системы, однако модули могут взаимодействовать по и по сети. Сообщения передаются также через Маршрутизатор сообщений, а взаимодействие между распределёнными в сетях Маршрутизаторами происходит посредством протокола SOAP.
Модель данных в системе. Данные в ЦБ Greenstone разделяются на документы и ресурсы. Например, электронная книга, которая была добавлена к коллекции, представлена в ней документом XML. Этот документ содержит метаданные, добавленные с книгой: заголовок, автор, издатель и т. д. Любые изображения, внедренные в книгу, выражаются как ресурсы, принадлежащие документу. Исходный файл электронной книги (скажем формата PDF), также является присоединенным ресурсом. Кроме того, в виде ресурсов, к основному документу могут быть присоединены другие документы, например, перевод той же книги на каком-либо языке отличном от оригинала.
Индексации в системе подлежат только документы, то есть именно они будут выступать результатами поиска. Ресурсы же не индексируются, и могут быть доступны только в рамках конкретного документа при его просмотре.
В случае, когда коллекция содержит лишь изображения (аудио, видео), т. е. не текстовые данные, они также представляются соответствующим XML-документами, в которых присутствует указатель на ресурс — оригинальный графический файл.
Роль и структура метаданных. Организация ЦБ главным образом опирается на метаданные — структурированную информацию о документах, имеющихся в библиотеке. Метаданные это некое подобие традиционных карточных каталогов. Метаданные документа содержат информацию описательного характера, такую как данные об авторе, заголовок, дату, ключевые слова и т. д. Метаданные могут ассоциироваться с документом в целом или с отдельными разделами документа. Понятие «метаданные» не абсолютное, а относительное: оно только действительно значимо в контексте и ясно дает понять, чем собственно являются данные.
Метаданные позволяют расположить в библиотеке новый материал и закрепить за существующими структурами, таким образом, что он сразу же становится полноправным членом библиотеки. Метаданные являются основой для организации индексирования документов, построения классификаторов и также могут использоваться при описании форматов представления результатов поиска или просмотра документов. В Greenstone с каждой коллекцией связывается один или несколько наборов элементов метаданных:
· Dublin Core (DC)
· RFC 1807
· NZGLS (New Zealand Government Locator Service)
· AGLS (Australian Government Locator Service)
· Формат извлекаемых метаданных Greenstone
В качестве стандартного набора предлагается использовать Дублинское ядро, который является форматом описания практически любых ресурсов Интернет. Набор DC — несложный по структуре, относительно легкий в применении, расширяемый и интернациональный, т. е. нашедший свое применение по всему миру. В 2001 г. набор элементов метаданных DC был утвержден в США Американским Институтом Национальных Стандартов как стандарт Z39.85 — 2001 (это уже и стандарт ISO 15 836−2003). В ряде стран формат DC рекомендован и принят как государственный стандарт для он-лайн ресурсов и электронной коммерции.
Имеется возможность определять новые наборы — как правило, добавляя несколько дополнительных элементов к существующему набору. Крайне полезен набор извлекаемых метаданных, содержащий информацию, автоматически извлеченную непосредственно из документов. Например, для HTML-файлов это содержащиеся метаданные в тэге заголовок, тэге МЕТА, или встроенные метаданные в DOC-файлы, автор и заголовок.
Система сохраняет наборы метаданных, используя разные пространства имен. Например, документы могут иметь два атрибута Заголовок из набора метаданных Дублинское ядро (dc.Title) и из набора извлеченных метаданных (ex.Title). Они не обязательно должны иметь одинаковые значения. Перечень описательных элементов как для документа в целом, так и его разделов не фиксирован. Документ и его разделы могут содержать свои собственные описательные элементы (т.е. их состав может изменяться от документа к документу или от одного раздела документа к другому). Извлеченные метаданные располагаются непосредственно в документах, а наборы метаданных в отдельных файлах в формате XML. Элементы метаданных имеют вид:
First chapter.
Для того чтобы ускорить ручной ввод метаданных, можно назначать элементы метаданных группе документов. Это означает, что пользователи могут использовать преимущество группировки документов, чтобы записать общие для группы документов метаданные за одну операцию.
2.3 Взаимодействие с системой Как было отмечено выше, пользователи (читатели) взаимодействуют с системой посредством HTTP доступа с помощью web-браузера. Введя URL библиотеки в адресной строке, такого вида: http://адрес_библиотеки, или http://адрес_библиотеки:8080 для Greenstone 3. В связи с тем, что третья версия программы реализована на Java, для выполнения различных сервлетов используется web-сервер Tomcat, порт 8080 в Tomcat используется по умолчанию.
После обращения к системе срабатывает Библиотечный сервлет, который и формирует web-интерфейс в окне браузера и реагирует на различные действия пользователя (Рисунок 5). Стартовая страница предлагает выбрать для просмотра имеющиеся в ЦБ коллекции. Собственно после открытия коллекции вся деятельность читателя сводится к двум основным действиям:
Рисунок 5 — Интерфейс коллекции ЦБ Greenstone.
Поиск. Пользователь Greenstone может осуществлять полнотекстовый поиск. Диапазон поиска определяют индексы, которые строятся на разных частях документов. С помощью индексов можно искать по отдельному слову, набору слов или фраз. Коллекции могут иметь индексы полных документов, индексы параграфов, индексы определенных метаданных (например, названий или авторов) по каждому из которых можно осуществлять поиск определенных слов или фраз. Результаты могут быть упорядочены или отсортированы по элементам метаданных. Greenstone предоставляет возможность выполнять поиск по нескольким коллекциям сразу с последующим объединением результатов поиска.
Просмотр. Для просмотра коллекции используется определенный перечень метаданных: перечень авторов, названий, дат, иерархичные классификационные структуры и т. д. Метаданные являются основой и начальным пунктом для осуществления просмотра. Разные коллекции предлагают разные возможности для просмотра. Интерфейсы просмотра и поиска создаются в процессе построения коллекции согласно информации о конфигурации коллекции.
Для создания структур просмотра метаданных, используется система классификаторов. С их помощью можно создать индексы просмотра такие как: алфавитные показатели, данные и разнообразные иерархические структуры. Можно создавать новые структуры просмотра.
В Greenstone разработан набор стандартных классификаторов. Все классификаторы генерируют иерархическую структуру, используемую для отображения индекса просмотра. На самом нижнем уровне этой структуры естественно размещаются документы, но могут определяться и разделы документов. Классификаторы могут иметь установленное или произвольное число уровней иерархии.
В системе используется набор символов UNICODE. В связи с этим и документы, и внешний интерфейс могут представляться на разных языках. В этом смысле система Greenstone является многоязычной. Кроме того, систему легко расширить новым языком интерфейса, путем добавления соответствующих названий и описаний элементов интерфейса на желаемом языке в файлы конфигурации.
Администрирование. Для администраторов системы предлагается несколько средств взаимодействия. В первую очередь это «командная строка» операционной системы. Работа в командной строке предполагает запуск различных бинарных (исполняемых) файлов или набора служебных скриптов, входящих в состав программы. Необходимые параметры передаются с командой в виде аргументов, например, так:
mkcol.plcreator gdladmin@tsic.uz gdlfubid
Здесь mkcol. pl — команда создания коллекции; -creator — параметр, gdladmin@tsic.uz — аргумент параметра creator, указывающий e-mail создателя коллекции, gdlfubid — аргумент, указывающий название коллекции.
Кроме командной строки администраторам доступны и некоторые графические средства, однако тщательная настройка, требует непосредственного редактирования конфигурационных файлов, для чего необходимо иметь навык применения XML и в целом веб-технологий.
Создание коллекций. Проводится с помощью интерфейса библиотекаря GLI (Greenstone Librarian Interface) — инструмента сбора и обработки документов с последующим созданием коллекций цифровых библиотек, работающих под управлением Greenstone. Он обеспечивает доступ к функциональным возможностям ПО библиотеки Greenstone графическим путем. GLI позволяет добавлять документы и метаданные в коллекцию, создавать новые коллекции и настраивать их на удобный просмотр (Рисунок 6).
С помощью GLI собирают наборы документов, импортируют или описывают метаданные и формируют их в коллекции. GLI поддерживает пять основных действий, которые могут чередоваться, но они имеют свой логический порядок:
Рисунок 6 — Графический интерфейс библиотекаря GLI
· Внесение документов в коллекцию. Документы, импортируемые из существующих коллекций, прибывают с присоединенными метаданными.
· Обогащение документов путем добавления к ним метаданных.
· Проектирование коллекции, т. е. определение ее внешнего вида и средств доступа.
· Построение коллекции с использованием Greenstone.
· Передача вновь созданной коллекции библиотечному серверу Greenstone. Коллекция автоматически инсталлируется в персональную цифровую библиотеку пользователя, и открывается web-страница, показывая домашнюю страницу коллекции.
Таким образом, в заключении главы отметим следующее:
ЦБ можно рассматривать как организованные, специализированные коллекции информации. Они сконцентрированы на отдельном предмете или теме, и хорошие цифровые библиотеки хорошо разъясняют принципы управления тем, что они содержат. Они создаются для того, чтобы информация стала доступной, четко определенной, и будут включать описание того, как она организована.