23 Июн

СОЗДАНИЕ ПОИСКОВОГО ОБРАЗА ДОКУМЕНТА В РАСПРЕДЕЛЕННОЙ СИСТЕМЕ




Номер части:
Оглавление
Содержание
Журнал
Выходные данные


Науки и перечень статей вошедших в журнал:

Начало XXI в. характеризуется распространением Интернет и Web-технологий для построения корпоративных информационных систем (КИС). Благодаря появлению беспроводной Интернет-технологии и высокой скорости передачи данных стал возможным стремительный переход от централизованных к распределенным системам хранения и передачи данных. В настоящее время не существует академического определения «распределенной системы». Э. Таненбаум  в монографии, посвященной распределенным вычислительным системам (РВС) описал эту технологию так: «распределенная система – это набор независимых компьютеров, представляющийся их пользователям единой объединенной системой».[1, с 23]. Архитектура РВС позволяет легко соединять пользователей с ресурсами, скрывая тот факт, что они размещены далеко друг от друга.

Исходя из классического понимания распределенной вычислительной системы, определим понятие распределенные базы данных (РБД) как набор множества логически связанных данных (баз и банков данных), представляющихся их пользователям единой объединенной системой для поиска необходимой информации.

В крупном холдинге информационный центр представляет собой сложную структуру, состоящую из множества подразделений. В этой связи на первый план выдвигается своевременная обработка данных и доступ к информации, необходимой для принятия бизнес-решений. Целью создания, обновления и хранения информации в распределенных базах данных является совершенствование поисковой доступности [2] за счет создания общего распределенного пространства.

Понятие «поисковой доступности» является многозначным, но для нашего исследования под этим термином подразумевается «степень легкости обнаружения конкретного объекта»  [2, с.20]. По нашему мнению, для информационных центров, удовлетворяющих информационные потребности корпорации, именно от быстроты и качества передачи данных зависит своевременная реакция на события, происходящие в мире.

В [3] приводится  следующее определение термина «поисковый образ документа (ПОД) — текст на информационно-поисковом языке (ИПЯ), поставленный в однозначное соответствие документу и отражающий признаки документа, необходимые для поиска его по запросу в информационно-поисковой системе (ИПС). Кроме признаков, раскрывающих тему документа, ПОД обычно содержит некоторые дополнительные сведения (библиографическую запись, выходные данные, тип документа и т.д.) Содержание и структура ПОД, в нашем случае, определяется метаданными, которые могут выступать в качестве ИПЯ.

Библиографические метаданные являются описательными и извлекаются из титульного листа документа. РБД содержит описание ресурсов, которые могут быть логически связаны отношениями путем ссылок с разными объектами, при этом в представлении пользователя они находятся в единой базе данных. В этой связи актуальным является объектно-ориентированное моделирование элементов данных, представляющихся составной частью распределенной базы данных. Оно характеризуется индивидуальностью, таксономией, полиморфизмом и наследованием. Следует отметить, что перечисленные характеристики объектно-ориентированной технологии могут рассматриваться обособленно, как части большого и сложного конструктора, которые вместе представляют единый и исчерпывающий взгляд на конкретную предметную область, содержащуюся в РБД.

Основное назначение моделирования, применительно к поисковому образу документа, состоит в том, чтобы рассмотреть библиографические метаданные с точки зрения прикладной лингвистки как сложную систему со своим метаязыком. Такой подход позволяет сократить сложность представления библиографических данных, выделяя ограниченный набор важнейших свойств документа и представляя его ПОД. Следовательно, под моделью понимается абстракция, которая создается с целью создания ПОД информационного ресурса.

Библиографические метаданные можно рассмотреть с трех точек зрения, связанных между собой. Каждая из них описывает важные аспекты функционирования элементов данных в распределенных базах данных. Модель классов описывает статические, структурные аспекты, связанные с элементами данных, которые позволяют специалисту, описывающему ресурсы усовершенствовать их поисковую доступность. Модель состояний характеризует временные, поведенческие, управленческие аспекты, связанные с редакцией распределенной базой данных, внесением в базу данных новых записей и репликацией, с удалением записей и т.д. Модель взаимодействий представляет собой кооперацию всех аспектов взаимодействия библиографических метаданных, связанных с друг с другом, и обеспечивает поисковую доступность ресурса. Эта модель характеризуется процедурами, выполняемыми программным обеспечением и СУБД.  Следует отметить, что каждая из моделей содержит ссылки на описанные выше модели. Они взаимосвязаны друг с другом и в то же время независимы [4].

В нашем исследовании мы акцентируем внимание на модели классов, поскольку именно эта  модель является самой важной и позволяет сформировать поисковый образ документа. Кроме того она  улучшает поисковую доступность объектов и ресурсов путем создания связей между разными свойствами описываемого объекта. Модель классов описывает структуру ресурсов, содержащихся в библиографических метаданных, их индивидуальность, отношения с другими объектами, атрибуты и операции.

В РБД под объектами имеют в виду «записанную информацию, имеющую определенные реквизиты и соответствующую требованиям  жанра и вида документа, зафиксированную на (в) вещевом изделии»[5]. Это определение, на наш взгляд, очень точно характеризует поисковую доступность любого объекта, так как для поиска нужно задать координаты, чтобы найти ресурс.

Внутренняя индивидуальность ресурса определяется формой произведения, а также видом и типом описываемого документа. Благодаря этой особенности объекты можно отличить друг от друга даже при наличии одинаковых реквизитов (совпадающие ФИО автора и названия произведений). Таким образом объектом моделирования в объектно-ориентированной модели является информация о документах, представленная в форме библиографических метаданных, которые в сжатой форме представляют основной предмет содержания документа.

Отдельный объект, представленный в модели, является экземпляром класса. Класс описывает группу объектов с одинаковыми  атрибутами, одинаковыми операциями, типами отношений и семантикой. В случае с библиографическими метаданными за основу класса принята форма произведения. В зависимости от объёма и сложности представления библиографических данных «форма произведения» может являться суперклассом, объединяющим произведения или ресурсы путем наследования определенных характеристик. В случае .простого описания «форма произведения» представляет собой класс, к которому относится описываемый или разыскиваемый объект.

Термин «Форма произведения» является атрибутом ER-модели «Функциональные требования к библиографическим записям – Functional Requirements for Bibliographic Records (FRBR)».  Он описан FRBR как: «класс, к которому принадлежит произведение (например, роман, пьеса, поэма, очерк, биография, симфония, концерт, соната, карта, рисунок, картина, фотография)» [6, с. 50]. Чаще всего форма произведения в библиографических метаданных обозначается как «сведения, относящиеся к заглавию» и соответственно имеют на это указание. Она также играет роль уточнения формы, большой или малой в изобразительном и музыкальном искусстве. Следовательно, каждый ресурс «знает» свой собственный класс. Тем самым класс объекта является его неявным свойством.

Класс характеризуется общими атрибутами, операциями и связями и ассоциациями  Подклассы, в свою очередь, добавляют к ним собственные атрибуты, операции и связи. Следовательно, под классификацией здесь понимается группировка объектов библиографического описания с одинаковыми структурами данных (атрибутами) и операциями в классы. Поэтому процессы обобщения информации, представленной в произведении, играют центральное место. [4]

Под обобщением понимают отношения между классом (суперклассом) и одной или несколькими его вариациями (подклассами). Часто эту связь можно представить словом «является» Например, «форма произведения является романом, пьесой, кинофильмом и т.п». Каждый экземпляр подкласса (роман, пьеса и т. п.) одновременно является экземпляром в суперклассе. Замечено, что простые обобщения упорядочивают классы в рамках определенной схемы. Иерархия со сложной структурой является библиографическим родом, который может быть представлен, помимо традиционных изданий кинофильмом, музыкальными и другими произведениями. В этом случае каждый подкласс может иметь одного непосредственного предка (его суперкласс). Термины «родитель» и «потомок» используются для описания  классов, находящихся далеко друг от друга по уровням, но связанные отношениями обобщения  (например, роман (класс) и снятый по его мотивам кинофильм). Такая структура иерархии данных называется наследованием. Следует отметить, что под этим термином понимают «полное или частичное копирование внутренней структуры и набора операций заданного класса (суперкласса) для подчиненного класса (подкласса)» [4].

Атрибуты характеризуют особенности суперкласса (класса) и его подклассов. Они являются «наименованным свойством класса, описывающим значение, которое может иметь каждый объект класса» [4, с. 45].  Атрибуты считаются прилагательными, которые раскрывают особенности класса. В нашей модели библиографических метаданных определены 24 атрибута, которые раскрывают суть классов, представленные в таблице 1.

Таблица 1

Атрибуты модели элементов библиографических метаданных

Суперкласс / класс Атрибут Значение атрибута
Форма произведения Форма произведения (formofwork) Называет форму произведения и определяет общую структуру представления записи. Является родителем для всех последующих произведений.
Лицо Имя лица (nameofperson) Имя лица
  Даты (dateofperson) Даты, связанные с именем лица
  Титул (titleofperson) Титул лица
  Коллективный автор (corporatename) Коллективный автор
Конкретная форма произведения (роман, пьеса, кинофильм) как подкласс или самостоятельный класс Название рукописи (nameofmanuscript) Характеризует рабочее название произведения.
     
  Форма произведения (formofwork) Обозначает форму произведения.
  Автор (author) Автор произведения, обозначенный на титульном листе.
  Дата создания произведения (dateofcreation) Дата создания произведения
  Язык (language) Язык произведения
  Версия (version) Версия произведения
  Заглавие произведения (titleofwork) Окончательное заглавие произведения
Издание Издатель (publishinghouse) Издатель, издательство
  Место издания (placeofedition) Место издания
  Страна публикации (countryofpublication) Обозначает страну, в которой произведение впервые опубликовано.
  Год издания (year) Год издания
  Том (value) Том, если издание многотомное или многочастное.
  Серия (series) Заглавие серии
  Описание (annotation) Аннотация, краткое описание издания.
  Носитель информации (holderofinformation) Носитель информации, на котором представлено издание.
  Формат (format) Формат, в котором доступен электронный ресурс.
  Объем (pagination) Пагинация, количество страниц.
Классификационный индекс Классификационный индекс

(classificationindex)

Классификационный индекс
  Система классификации (systemclassification) Система классификации, принятая в библиографирующей организации.
  Предметная рубрика (subject) Предметная рубрика, к которой относится классификационный индекс.
  Ключевые слова (keywords) Неконтролируемые или контролируемые ключевые слова.
Экземпляр Организация (organization) Организация – держатель экземпляра.
  Отдел (department) Отдел, в котором храниться экземпляр издания.
  Доступ (access) Условия доступа.
  Шифр хранения (pressmark) Шифр хранения.

Следует отметить, что предложенная модель библиографических метаданных имеет существенные различия с форматом метаданных Dublin Core – созданным для описания только ресурсов, представленных в сети Интернет. Объектно-ориентированная модель библиографических метаданных позволяет усовершенствовать поисковую доступность и качество поискового образа документа на документные ресурсы любого типа и вида. [7].

Рисунок. 2. Объектно-ориентированная модель библиографических метаданных

Приведенные в таблице 1 атрибуты описывают значения, которые принадлежат отдельным физическим единицам. Тем самым они не могут обладать индивидуальностью, присущей отдельным экземплярам, которые являются одновременно и объектами описания, и объектами поисковой доступности [7].

В описанной модели связь (link) — концептуальное и единичное соотношение между объектами. Ассоциации, возникающие между объектами, представляют собой группу отношений, обладающих общей структурой и семантикой. Замечено, что связи и ассоциации присутствуют в моделировании в качестве глаголов. Они могут быть различными и зависеть в некоторой степени от владения пользователем  информационной  грамотностью.

Таким образом создание поискового образа документа в распределенной системе базируется на объектно-ориентированной модели библиографических метаданных.[7]. Эта  модель позволяет создавать поисковой образ документа, соответствующий запросу пользователя, что в свою очередь способствует совершенствованию поисковой доступности, что в конечном в итоге сэкономит время на принятие бизнес-решений сотрудниками крупных корпораций.

Список литературы

  1. Таненбаум. Э., Стен М. В. Распределенные системы : принципы и парадигмы / Э. Таненбаум, М. ванн Стеен.- СПб.: Питер. – 2003. – 877 с.: ил. – (Классика Computer science).
  2. Морвиль, П. Тотальная видимость / Питер Морвиль; пер.  С. Иноземцева. —  СПб.: Символ-Плюс, 2008. – 272 с. : цв. ил.
  3. Энциклопедия кибернетики / Ред коллегия: В. М. Глушков (отв. ред.) [и др.]; АН УССР. – Киев: Укр. сов. Энциклопедия, 1974 — .Т. 2 : Мих – Яч. – 1974. – 618 с.
  1. Рамбо Дж., Блаха М. UML 2.0 : объектно-ориентированное моделирование. – 2- изд / Дж. Рамбо, М. Блаха. – СПб.: Питер. – 2007.
  2. Швецова-Водка, Г. Н. Общая теория документа и книги : учеб. пособие / Г. Н. Швецова  -Водка. – М.: Рыбари, Киев : Знання, 2009. – 487 с.
  3. Функциональные требования к библиографическим записям : окончат. отчет / Рос. библ. ассоц.; пер. с англ. [В. В. Арефьев]; науч. ред.: Т.А. Бахтурина, Н. Н. Каспарова, Н. Ю. Кулыгина. – М.: РГБ,2006. – 150 с.
  4. Халабия, Р.Ф., Халабия М.Л. Объектно-ориентированный подход к моделированию элементов библиографического описания в динамических распределенных базах данных / Халабия Рустам Фарук, Халабия Мария Леонидовна // Информатизация образования и науки. – 2012. — № 2. – с. 140-149.
    СОЗДАНИЕ ПОИСКОВОГО ОБРАЗА ДОКУМЕНТА В РАСПРЕДЕЛЕННОЙ СИСТЕМЕ
    В докладе даются определения поисковой доступности, распределенной вычислительной сети и базе данных. Представлена объектно-ориентированная модель библиографических метаданных, которая является средством достижения поисковой доступности.
    Written by: Халабия Мария Леонидовна
    Published by: euroasia-science_6(27)_23.06.2016
    Date Published: 12/14/2016
    Edition: euroasia-science_6(27)_23.06.2016
    Available in: Ebook