25 Авг

ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ




Номер части:
Оглавление
Содержание
Журнал
Выходные данные


Науки и перечень статей вошедших в журнал:

Решение задачи классификации является важным, когда речь идет о больших объемах информации, трудно поддающихся ручной обработке, особенно если она имеет потоковый характер, как например в случае с потоками новостей. Каждый день генерируются десятки тысяч новостных сообщений. Чтобы представлять их в удобочитаемом и доступном виде необходимо произвести классификацию этих сообщений по их тематикам.

В наивном байесовском классификаторе каждый документ рассматривается как множество терминов, где порядок этих терминов не имеет значения[2]. Текстовый поток для данной задачи представляется как множество текстовых сообщений, получаемых из источников в случайные моменты времени. При этом вероятность того, что данное сообщение из потока принадлежит определенному классу сj равна:

Априорные вероятности классов P(cj) рассчитываются как отношение количества документов в классе cjк общему числу документов коллекции[2].

Метод позволяет произвести процедуру классификации сравнительно быстро, это отвечает требованию оперативности алгоритма в контексте задачи классификации потоков текстовой информации в реальном времени.

Алгоритм  обучения состоит в том, чтобы найти априорные вероятности P(c), а так же вероятности признаков для каждого класса. Вероятностями классификационных признаков здесь будут являться числовые характеристики термов сообщения.

Предлагаемая модифицированная модель НБК заключается в следующем. В традиционном наивном байесовском классификаторе мерой вероятности принадлежности считается частотность термина:

где  — количество вхождений термина   документе класса  Этот подход не учитывает частоту употребления термина в документах других классов обучающей выборки.

Предлагается следующий подход к расчету весов терминов для классов:

  • Рассчитывать частотность термина для данного класса
  • Рассчитывать обратную частотность термина в документах всей коллекции.
  • Рассчитывать вес термина согласно правилам:
    • Термин тем важнее для класса, чем чаще он используется в документах этого класса.
    • Термин тем незначительнее для класса, чем чаще он используется в документах всей коллекции.

Обратная частотность термина в документах всей коллекции рассчитывается как

Здесь  — количество документов всей коллекции,  — Количество документов, где встречается термин t.

Перемножая частотность термина в классе и обратную частотность термина во всей коллекции мы получим большой вес для терминов, которые часто используются в данном классе, и редко используются в других классах, маленький вес для терминов, которые часто используются в документах всей коллекции [1].

Предлагается принять метрику tf-idf как меру вероятности принадлежности термина классу. Тогда байесовский классификатор будет выглядеть так:

Для проверки эффективности алгоритма было использовано тестовое множество корпуса новостей российских газет 90-х годов в размере 1000 статей [4].

Далее была проведена классификация этих статей с помощью традиционного наивного байесовского классификатора (НБК) и с  помощью модифицированного наивного байесовского классификатора (МНБК).

В качестве характеристик, описывающих качество классификации использовались такие оценки, как полнота (recall), точность(precision) и F1-мера.

Рисунок 1. Экспериментальные оценки рассмотренных алгоритмов.

Эксперимент показал, что характеристики эффективности модифицированного байесовского классификатора в целом выше, чем у традиционного байесовского классификатора.

Список литературы

  1. Advanced Science and Technology Letters Classification Scheme of Unstructured Text Document using TF-IDF and Naive Bayes Classifier http://onlinepresent.org/proceedings/vol111_2015/50.pdf
  2. Ljunglof P., Wiren M. Syntactic Parsing // Handbook of Natural Language Processing, Second Edition. 2nd ed. / Ed. by lndurkhva N., Damerau F.J. Chapman and llall/CRC, 2010.P. 59-92.
  3. Автоматическая обработка текстов на естественном языке н компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011 — 272с.
  4. Машинный фонд русского языка. // http://cfrl.ruslang.ru/
    ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ
    В статье рассмотрена классификация текстовых потоков с помощью наивного байесовского классификатора и его модификация.. Предложен реальный классификатор, позволяющий обрабатывать текстовые потоки в режиме реального времени.
    Written by: Субботин Артем Николаевич
    Published by: Басаранович Екатерина
    Date Published: 12/10/2016
    Edition: euroasia-science.ru_#29_25.08.2016
    Available in: Ebook