Внедрение электронного веб-архива в Федеральном космическом агентстве

В конце 2011 года в опытную эксплуатацию в Роскосмосе введен электронный веб-архив, выполняющий функции централизованного отраслевого информационного ресурса. Ключевыми свойствами электронного веб-архива являются:

  • автоматический сбор данных в архив по расписанию из разных источников с разным типом контента,
  • автоматическая публикация информации из архива на отраслевом интранет-портале,
  • предоставление пользователям портала интерфейсов расширенного поиска по архиву, реализованных в современной парадигме веб-поиска.

О заказчике
Федеральное космическое агентство РФ (Роскосмос) является федеральным органом исполнительной власти, осуществляющим функции по обеспечению реализации государственной политики и нормативно-правовому регулированию, оказанию государственных услуг и управлению государственным имуществом в сфере космической деятельности, международного сотрудничества при реализации совместных проектов и программ в области космической деятельности, проведения организациями ракетно-космической промышленности работ по ракетно-космической тематике, а также функции по общей координации работ, проводимых на космодроме Байконур. В ведении Роскосмоса находятся более 100 федеральных государственных унитарных предприятий и акционерных обществ (http://www.roscosmos.ru).

Ситуация
За годы существования космической отрасли в фондах предприятий Роскосмоса накоплены значительные объемы информации, хранящейся в документах (бумажных и электронных) и базах данных различных форматов. Объединение этой информации в рамках централизованного отраслевого информационного ресурса и обеспечение доступа к нему всем специалистам отрасли является весьма актуальной задачей.
Объединение фондов в рамках единого электронного архива не может быть чисто механическим, а должно проводиться в целях достижения качественно нового уровня информационного обеспечения специалистов в процессе осуществления ими производственной деятельности. Среди таких целей можно выделить следующие:

  • обеспечение единой точки доступа к фондам предприятий, например, через общедоступный в пределах отрасли интранет-портал,
  • работа с информацией в контексте сводного отраслевого каталога информационных ресурсов и сводного рубрикатора информации,
  • работа с консолидированной информацией, что означает наличие ссылок (связей) между информационными объектами, загруженными в архив из различных фондов, и возможность навигации по этим ссылкам между информационными объектами на портале,
  • обеспечение атрибутивного поиска и расширеннного контекстного поиска информации по всем фондам предприятий, представленным в архиве,
  • обеспечение поиска информации с учетом выполненной при загрузке в архив автоматической рубрикации документов,
  • обеспечение поиска заимствований между документами,
  • работа с аннотациями документов, автоматически сформированными при их загрузке в архив.

Выбор
На основании анализа решений, предлагаемых различными поставщиками программного обеспечения, в качестве платформы для реализации централизованного отраслевого информационного ресурса Роскосмоса была выбрана система «Электронный веб-архив» компании Digital Design, как наиболее полно удовлетворяющая описанным выше потребностям Роскосмоса.
Выбор в пользу решения компании Digital Design был сделан также с учетом наличия в его составе инструментария, позволяющего существенно снизить стоимость владения системой при эксплуатации больших объемов данных. Использование указанного инструментария исключало необходимость как ручной загрузки данных в архив, так и разработку программных утилит загрузки данных для каждого включаемого в архив информационного ресурса.

Анализ задач
Источниками информации для наполнения электронного веб-архива являлись информационные ресурсы подведомственных предприятий Роскосмоса с различным типом контента и с различным типом доступа к этому контенту, в том числе:

  • данные из таблиц реляционных БД в формате MSSQL, Oracle, MS Access и т.д.,
  • данные из таблиц Excel,
  • файловые хранилища электронных документов различных форматов (TXT, DOC, PDF и т.д.),
  • бумажные архивы документов по результатам их оцифровки (например, оцифровки в формат PDF),
  • хранилища аудио и видео файлов различных форматов,
  • данные из различных информационных систем, извлекаемые через API этих систем, например, данные из СЭД на платформе DocsVision или на платформе Documentum,
  • данные из различных информационных систем, извлекаемые через специально разработанные WEB-сервисы доступа к данным этих систем,
  • и так далее.

В силу значительного количества информационных ресурсов, загружаемых в архив и требующих публикации на интранет-портале, одной из ключевых задач, стоящих перед системой, являлось предоставление эксплуатационному персоналу Роскосмоса инструментов, позволяющих производить настройку (без программирования) правил загрузки и публикации на портале данных из произвольных информационных ресурсов с различным типом контента.
Указанные инструменты должны были обеспечить для каждого подключаемого к архиву информационного ресурса возможность настройки:

  • описаний информационных объектов, загружаемых в архив, включая описание состава атрибутов и связей, формируемых с другими информационными объектами в архиве,
  • правил загрузки объектов из внешних информационных ресурсов, в том числе, правил периодической синхронизации данных между первоисточником и архивом,
  • правил публикации на интранет-портале данных, загруженных в архив.

При этом собственно процессы загрузки и публикации данных должны были осуществляться в контексте указанных настроек в автоматическом режиме без участия человека.
С точки зрения перспектив использования отраслевого электронного веб-архива предполагается поэтапное подключение к системе фондов различных предприятий Роскосмоса, что предполагает дальнейшее развитие инструментария взаимодействия с внешними информационными ресурсами, например, с уникальным типом контента.
В контексте развития системы рассматривается также включение в состав веб-архива инструментов семантической обработки информации, предназначенных для решения задач авторубрикации, автоаннотирования документов и поиска заимствований между документами.

Платформа
Электронный веб-архив Роскосмоса построен на платформах DocsVision 4.5 и Microsoft SharePoint Server 2010 (имеется совместимость с более ранними версиями указанных платформ).
В рамках платформы DocsVision реализуется уровень управления веб-архивом, предназначенный для эксплуатационного персонала.
Презентационный уровень веб-архива, предназначенный для конечных потребителей информации – специалистов Роскосмоса, реализуется в рамках отраслевого интранет-портала на платформе Microsoft SharePoint Server 2010.

Решение
Электронный веб-архив Роскосмоса включает два архитектурных уровня.
Первый уровень ориентирован на администраторов системы, осуществляющих эксплуатацию архива. Этот уровень реализован в рамках функциональности платформы DocsVision и дополнительных модулей расширения к платформе.
На платформе DocsVision реализованы:

  • архивное хранилище в БД MS SQL 2008,
  • сводный каталог информационных ресурсов отрасли, включаемых в архив,
  • бизнес-процессы сбора данных в архив.

С помощью дополнительных модулей – расширений платформы DocsVision реализованы:

  • конструктор описаний включаемых в архив информационных объектов, предназначенный для настройки правил загрузки, консолидации и публикации данных,
  • набор адаптеров (коннекторов) доступа к различным типам контента,
  • набор загрузчиков данных из ресурсов с различным типом контента.

В состав веб-архива Роскосмоса были включены следующие адаптеры, позволящие настраивать правила загрузки данных в архив из источников с различным типом контента:

  • адаптер к промышленным базам данных на платформах MS SQL и Oracle,
  • адаптер к базам данных MS Access,
  • адаптер к файлам MS Excel,
  • адаптер к данным и документам, хранящимся в системах на платформе DocsVision (доступ через API DocsVision),
  • адаптер к файловым хранилищам документов, предполагающий наличие описи загружаемых файлов (файловые хранилища являлись результатами оцифровки бумажных архивов).

Второй архитектурный уровень веб-архива ориентирован на конечных потребителей информации и реализован на интранет-портале Microsoft SharePoint Server 2010.
Портальная часть решения включает три веб-части (портлета публикации), которые встраиваются в иерархию страниц SharePoint-портала и предназначены для:

  • отображения списков объектов из различных разделов каталога архива с возможностью атрибутивного поиска объектов и навигации между связанными объектами по гиперссылкам (отображение осуществляется с учетом правил публикации списков, настраиваемых администраторами архива),
  • отображения карточек архивных объектов (с учетом правил публикации карточек объектов различных типов, настраиваемых администраторами),
  • расширенного поиска объектов по архиву в рамках современной парадигмы веб-поиска (поиск осуществляется как по атрибутам, так и по текстам документов, приложенных к карточкам объектов в архиве).

Впечатления
«Компания Digital Design уже реализовала в Роскосмосе успешный проект по созданию системы электронного документооборота на платформе DocsVision, в ходе которого ее специалисты подтвердили высокий уровень своей компетенции, – комментирует Борис Игнатов, начальник отдела информационных технологий Роскосмоса. – Поэтому мы удовлетворены тем, что эта компания вновь участвует в важном и длительном проекте, направленном на повышение качества информационного обеспечения нашей отрасли».

Результаты
Внедрение электронного веб-архива Роскосмоса позволило:

  • обеспечить качественно новый уровень информационного обеспечения специалистов Роскосмоса в процессе осуществления ими своей производственной деятельности,
  • сократить трудоемкость технологических процессов сбора, подготовки и публикации данных за счет применения современных технологий управления информацией.

«В «Электронный архив» кроме всего прочего вошли две уникальные разработки: одна из них представляет собой набор шлюзов ко всему разнообразию возможных источников данных, снимающий многие ограничения сбора и логического связывания материалов. Вторая – модуль публикации материалов на портале, позволяющий управлять форматом публикации и менять структуру информации на портале «на лету», в том числе и после того, как материалы уже появились на портале.
Такие возможности делают данное решение интересным организациям, ставящим перед собой задачу консолидации разнородных материалов и представления их в удобном для поиска и просмотра виде», – отмечает Ирина Шигина, заместитель директора департамента корпоративных систем Digital Design.
По результатам внедрения электронного веб-архива Роскосмоса в рамках опытного полигона:

  • Была консолидирована в архиве и опубликована на портале информация из 10 информационных систем.
  • Время подготовки информации для опубликования на портале уменьшилось на 2 порядка;
  • Была реализована принципиально новая возможность осуществлять сквозной поиск информации по всем консолидированным информационным ресурсам. При этом время консолидированного поиска уменьшилось на порядок даже по сравнению с локальным поиском в рамках отдельных ресурсов.
  • Была реализована принципиально новая возможность навигации между объектами из разных информационных ресурсов.
  • За счет реализации бизнес-процессов автоматического обновления информации по расписанию была сведена до минимума потребность в администрировании процессов сбора и публикации информации.

Перспективы
В 2012 году планируется поэтапное подключение к электронному веб-архиву Роскосмоса фондов различных предприятий отрасли, что будет сопровождаться порой непростыми организационно-техническими мероприятиями. С технологической точки зрения в ходе этого процесса предполагается расширять состав адаптеров доступа к разнородным информационным ресурсам. Кроме того, предполагается дальнейшее развитие системы в части использования инструментов семантической обработки информации, предназначенных для решения задач авторубрикации, автоаннотирования документов и поиска заимствований между документами.