ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ

Решение задачи классификации является важным, когда речь идет о больших объемах информации, трудно поддающихся ручной обработке, особенно если она имеет потоковый характер, как например в случае с потоками новостей. Каждый день генерируются десятки тысяч новостных сообщений. Чтобы представлять их в удобочитаемом и доступном виде необходимо произвести классификацию этих сообщений по их тематикам.

В наивном байесовском классификаторе каждый документ рассматривается как множество терминов, где порядок этих терминов не имеет значения[2]. Текстовый поток для данной задачи представляется как множество текстовых сообщений, получаемых из источников в случайные моменты времени. При этом вероятность того, что данное сообщение из потока принадлежит определенному классу с_j равна:

Априорные вероятности классов P(c_j) рассчитываются как отношение количества документов в классе c_jк общему числу документов коллекции[2].

Метод позволяет произвести процедуру классификации сравнительно быстро, это отвечает требованию оперативности алгоритма в контексте задачи классификации потоков текстовой информации в реальном времени.

Алгоритм обучения состоит в том, чтобы найти априорные вероятности P(c), а так же вероятности признаков для каждого класса. Вероятностями классификационных признаков здесь будут являться числовые характеристики термов сообщения.

Предлагаемая модифицированная модель НБК заключается в следующем. В традиционном наивном байесовском классификаторе мерой вероятности принадлежности считается частотность термина:

где — количество вхождений термина документе класса Этот подход не учитывает частоту употребления термина в документах других классов обучающей выборки.

Предлагается следующий подход к расчету весов терминов для классов:

Рассчитывать частотность термина для данного класса
Рассчитывать обратную частотность термина в документах всей коллекции.
Рассчитывать вес термина согласно правилам:
- Термин тем важнее для класса, чем чаще он используется в документах этого класса.
- Термин тем незначительнее для класса, чем чаще он используется в документах всей коллекции.

Обратная частотность термина в документах всей коллекции рассчитывается как

Здесь — количество документов всей коллекции, — Количество документов, где встречается термин t.

Перемножая частотность термина в классе и обратную частотность термина во всей коллекции мы получим большой вес для терминов, которые часто используются в данном классе, и редко используются в других классах, маленький вес для терминов, которые часто используются в документах всей коллекции [1].

Предлагается принять метрику tf-idf как меру вероятности принадлежности термина классу. Тогда байесовский классификатор будет выглядеть так:

Для проверки эффективности алгоритма было использовано тестовое множество корпуса новостей российских газет 90-х годов в размере 1000 статей [4].

Далее была проведена классификация этих статей с помощью традиционного наивного байесовского классификатора (НБК) и с помощью модифицированного наивного байесовского классификатора (МНБК).

В качестве характеристик, описывающих качество классификации использовались такие оценки, как полнота (recall), точность(precision) и F1-мера.

Рисунок 1. Экспериментальные оценки рассмотренных алгоритмов.

Эксперимент показал, что характеристики эффективности модифицированного байесовского классификатора в целом выше, чем у традиционного байесовского классификатора.

Список литературы

Advanced Science and Technology Letters Classification Scheme of Unstructured Text Document using TF-IDF and Naive Bayes Classifier https://onlinepresent.org/proceedings/vol111_2015/50.pdf
Ljunglof P., Wiren M. Syntactic Parsing // Handbook of Natural Language Processing, Second Edition. 2nd ed. / Ed. by lndurkhva N., Damerau F.J. Chapman and llall/CRC, 2010.P. 59-92.
Автоматическая обработка текстов на естественном языке н компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011 — 272с.
Машинный фонд русского языка. // type=»book» name=»ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ» description=»В статье рассмотрена классификация текстовых потоков с помощью наивного байесовского классификатора и его модификация.. Предложен реальный классификатор, позволяющий обрабатывать текстовые потоки в режиме реального времени.» author=»Субботин Артем Николаевич» publisher=»Басаранович Екатерина» pubdate=»2016-12-10″ edition=»euroasia-science.ru_#29_25.08.2016″ ebook=»yes» ]

euroasia

Похожие записи