31 Окт

ЭТАПЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ЭЛЕКТРОННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ




Номер части:
Оглавление
Содержание
Журнал
Выходные данные


Науки и перечень статей вошедших в журнал:
Авторы:
DOI:

В настоящее время в связи с постоянным ростом информации электронных информационных ресурсов (ЭИР) необходимо развитие технологий, позволяющих использовать ее для решения различных производственных задач предприятий и организаций. Потребность в этом испытывают все пользователи, начиная от простых людей и кончая специалистами крупных компаний, отвечающими за формирование информационных источников.

Развитие технологии ЭИР стимулировало широкое развитие средств извлечения знаний, позволяющих преобразовывать различные выборки данных из операционных базы данных в знания. Если ранее необходимо было сначала собрать данные, проверить и объединить их, то сегодня это уже сделано — данные находятся в ЭИР и дело, лишь за тем, чтобы наиболее рационально ими воспользоваться.

Большинство организаций имеет огромные базы данных, содержащие целое богатство потенциально доступной информации. Однако обычно очень трудно получить доступ к этой информации. Неуправляемый рост данных неизбежно ведёт к увеличению трудностей доступа к желаемой информации: это подобно поиску иглы в стоге сена, только количество сена все время возрастает. На этом фоне понятен тот большой интерес, который проявляется к новой технологии  интеллектуального анализа данных (ИАД) и ее ядру – извлечению знаний из данных (Data Mining – DM) [1].

Необходимо отметить, что информационный поток, «потребляемый» организацией из ЭИР, носит, как правило, выраженную предметную окраску, характеризуемую областью интересов данной организации, а следовательно, в большинстве случаев, может быть хорошо структурирован. В большинстве случаев специалисты, занимающиеся сбором и анализом новостной информации из Интернет-источников, имеют достаточно четкое представление о том, какая именно информация и из каких источников их интересует, какой набор метаданных должен сопровождать ту или иную новость, в какой тематический раздел ее следует поместить. Это обстоятельство является предпосылкой для создания модели знания о предметной области и открывает возможность для автоматизации извлечения этих знаний.

Данная работа является разработка этапы извлечения знаний из ЭИР, позволяющей сократить трудозатраты на формирование и обновление база знаний (БЗ) ограниченной предметной области, не снижая при этом уровня полноты и достоверности извлекаемых знаний.

Методы извлечения знаний

Многообразие задач, ситуаций и источников знаний обусловило появление большого количества методов извлечения, приобретения и формирования знаний. Одна из возможных классификаций методов извлечения знаний приведена на рис. 1, на первом уровне которой выделены два больших класса. Первый класс образуют коммуникативные методы, которые ориентированы на непосредственный контакт инженера по знаниям с экспертом (источником знаний), второй класс — текстологические методы, основанные на приобретении знаний из документов и специальной литературы [2].

Рис. 1. Классификация методов извлечения знаний

Коммуникативные методы охватывают все виды контактов с живым источником знаний – экспертом.

Текстологические методы предполагают извлечение знаний из документов (методик, пособий, руководств) и специальной литературы (статьи, монографии, учебники).

Разделение этих групп методов не означает их антагонистичности – обычно инженер знаний комбинирует различные методы: сначала изучает литературу, а затем идет беседовать с экспертом и наоборот.

Коммуникативные методы делятся на активные и пассивные.

В пассивных методах ведущую роль играет эксперт, а инженер знаний только протоколирует рассуждения эксперта во время его реальной работы по принятию решений или записывает то, что эксперт считает нужным сказать во время беседы или лекции. Пассивные методы на 1-й взгляд просты, но они требует от инженера знаний умения четко анализировать «поток сознания эксперта и выявлять в нем значимые фрагменты знаний.

В активных методах ведущая роль, инициатива принадлежит инженеру знаний, который активно контактирует с экспертом различными способами – в играх, диалогах и т.п.

Активные и пассивные методы могут чередоваться даже в рамках одного сеанса извлечения знаний.

Активные методы делятся на две группы в зависимости от числа участвующих экспертов – индивидуальные и групповые.

Групповые методы служат активация мышления участников дискуссий и позволяют выявлять весьма нетривиальные аспекты их знаний.

Индивидуальные методы все  же остаются ведущими, поскольку столько деликатная процедура, как «отъём знаний» не терпит свидетелей.

Самую особую сложность представляет извлечение знаний из специальной литературы и методик, поскольку в них очень высока степень концентрации специальных знаний.

Этапы извлечение знаний из ЭИР

Извлечение знаний в компьютере представляет собой обработку их содержимого правилами преобразования тех форм, которыми описываются знания в машине. Следовательно, при  извлечение знаний наиболее фундаментальной и важной проблемой является, прежде всего, описание смыслового содержимого проблем широкого диапазона, а также наличие такой формы описания знаний, которая гарантирует, что обработка их содержимого формальными правилами преобразования будет осуществляться правильно.

Этап извлечение знаний  является ядром процесса ЭИР и обработки знаний. Технология извлечение знаний включает много методов и основана на идеи, что существует больше знаний, скрытых в данных, чем видно на поверхности.  В настоящее время специалисты выделяют следующие основные методы извлечения знаний [3,4]:  инструментальные средства запроса,  статистическая техника,  визуализация, интерактивная аналитическая обработка (On-Line Analytical Processing, OLAP), обучение, основанное на прецедентах  (k-ближайший сосед),  деревья решений, ассоциативные правила, нейронные сети, генетические алгоритмы.

 

Рис. 2. Схема извлечения знаний

На рис. 2 показаны внутренние потоки, отображающие процедуры/механизмы извлечения знаний от экспертов и других источников (внешней среды), структурирования и формализации извлеченных знаний. Извлечение, структурирование и формализация знаний – это основные этапы построения БЗ.

Вся информация, знания, поступающие в системе управление электронных информационных ресурсов (СУЭИР), проходят этап извлечения и структурирования знании. Если источники знаний, тексты, извлечение проводится текстологическими методами, если источниками являются отдельные сотрудники организации и эксперты, знания извлекают коммуникативными активными или пассивными методами. В процессе структурирования производится разработка неформального описания знаний о предметной области в виде графа, таблицы, диаграммы или текста, которое отражает основные концепции и взаимосвязи между понятиями предметной области.

Затем структурированные информации проходит этап, в котором информация подвергается машинной обработки. Информация очищается и согласуется данные из разных источников информации. Результатом работы блока Менеджер БД является стандартизация на формат ХД. При этом данные очищаются от ненужной информации, объединяются из различных источников, синхронизируются по времени и трансформируются, то есть происходит преобразование типов данных, реорганизация структур хранения.

Пользователи взаимодействуют с системой через единую точку доступа к разнородной информации. Для консультации менее квалифицированных специалистов используют экспертные системы, которые аккумулируют знания и опыт экспертов.

Для многомерного анализа больших объемов информации в СУЭИР располагается система оперативной аналитической обработки данных (OLAP). Моделируя многомерность мышления человека, OLAP позволяет исследовать зависимость той или иной характеристики бизнес-процесса от многих влияющих на нее факторов. Технология рассчитана на специалиста, отвечающего за определенный тип бизнес-процессов, и предоставляет ему возможность самостоятельно строить отчеты для анализа интересующих его зависимостей без привлечения специалистов по информационным технологиям.

Для решения задач более глубокого анализа данных применяется набор технологий, объединенных под названием интеллектуальный анализ данных (Knowledge Discovery in Databases, KDD), который реализуется механизмом интеллектуального агента. Это процесс поиска полезных знаний в «сырых» данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining [1,4], обработки данных, интерпретации полученных результатов. Исследование и обнаружение алгоритмами, средствами искусственного интеллекта в «сырых» данных скрытых структур, шаблонов или зависимостей, которые ранее не были известны, доступны для интерпретации человеком и необходимы для принятия решений в различных сферах деятельности.

Проблема построения БЗ и ЭИР в целом, как одной из важных компонент крупных интеллектуальных информационных систем, отличается многоэтапностью и сложностью реализующих их механизмов. Извлечение знаний из различных источников, не имеющих предварительного семантического описания, являются первым, исходным этапом построения БЗ. Разнообразие природы и типов информации, содержащейся в этих источниках, обусловило многообразие механизмов и методов извлечения знаний, трудно поддающихся формализации и автоматизации. Поэтому представляются актуальными задачи совершенствования методов и разработки алгоритмов и программных средств, обеспечивающих автоматизацию процедур извлечения знаний и, тем самым, построение автоматизированных системы извлечение знаний, и построение БЗ оперативных ЭИР крупных организаций.

 

Список литературы:

  1. Дюк В., Самойленко А. Data Mining : учебный курс (+CD). –СПб: Издательский дом «Питер», 2001. –368с.
  2. Луценко Е. В. Представление знаний в информационных системах: Электронное учебное пособие для студентов специальности «Информационные системы и технологии».– Краснодар: КубГАУ, 2010. – 428 с.
  3. Попов Э.В., Фоминых И.Б. Извлечение знаний из баз данных. — В кн.: Сборник трудов 5-ой национальной конференции «Искусственный интеллект-96», Казань, 1996.
  4. Han, M.Kamber. Data Mining. Concept and Techniques. Morgan Kaufman Publishers, 2000, 550 p.
    ЭТАПЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ЭЛЕКТРОННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ
    Рассматриваются этапы извлечения знаний из электронных информационных ресурсов. Анализируются методы извлечения знаний. Приведена концептуальная схема процедур извлечения знаний.
    Written by: Бобамурадов Озод Джураевич, Рахимов Нодир Одилович
    Published by: БАСАРАНОВИЧ ЕКАТЕРИНА
    Date Published: 01/25/2017
    Edition: ЕВРАЗИЙСКИЙ СОЮЗ УЧЕНЫХ_31.10.15_10(19)
    Available in: Ebook