Решение задачи классификации является важным, когда речь идет о больших объемах информации, трудно поддающихся ручной обработке, особенно если она имеет потоковый характер, как например в случае с потоками новостей. Каждый день генерируются десятки тысяч новостных сообщений. Чтобы представлять их в удобочитаемом и доступном виде необходимо произвести классификацию этих сообщений по их тематикам.
В наивном байесовском классификаторе каждый документ рассматривается как множество терминов, где порядок этих терминов не имеет значения[2]. Текстовый поток для данной задачи представляется как множество текстовых сообщений, получаемых из источников в случайные моменты времени. При этом вероятность того, что данное сообщение из потока принадлежит определенному классу сj равна:
Априорные вероятности классов P(cj) рассчитываются как отношение количества документов в классе cjк общему числу документов коллекции[2].
Метод позволяет произвести процедуру классификации сравнительно быстро, это отвечает требованию оперативности алгоритма в контексте задачи классификации потоков текстовой информации в реальном времени.
Алгоритм обучения состоит в том, чтобы найти априорные вероятности P(c), а так же вероятности признаков для каждого класса. Вероятностями классификационных признаков здесь будут являться числовые характеристики термов сообщения.
Предлагаемая модифицированная модель НБК заключается в следующем. В традиционном наивном байесовском классификаторе мерой вероятности принадлежности считается частотность термина:
где — количество вхождений термина документе класса Этот подход не учитывает частоту употребления термина в документах других классов обучающей выборки.
Предлагается следующий подход к расчету весов терминов для классов:
- Рассчитывать частотность термина для данного класса
- Рассчитывать обратную частотность термина в документах всей коллекции.
- Рассчитывать вес термина согласно правилам:
- Термин тем важнее для класса, чем чаще он используется в документах этого класса.
- Термин тем незначительнее для класса, чем чаще он используется в документах всей коллекции.
Обратная частотность термина в документах всей коллекции рассчитывается как
Здесь — количество документов всей коллекции, — Количество документов, где встречается термин t.
Перемножая частотность термина в классе и обратную частотность термина во всей коллекции мы получим большой вес для терминов, которые часто используются в данном классе, и редко используются в других классах, маленький вес для терминов, которые часто используются в документах всей коллекции [1].
Предлагается принять метрику tf-idf как меру вероятности принадлежности термина классу. Тогда байесовский классификатор будет выглядеть так:
Для проверки эффективности алгоритма было использовано тестовое множество корпуса новостей российских газет 90-х годов в размере 1000 статей [4].
Далее была проведена классификация этих статей с помощью традиционного наивного байесовского классификатора (НБК) и с помощью модифицированного наивного байесовского классификатора (МНБК).
В качестве характеристик, описывающих качество классификации использовались такие оценки, как полнота (recall), точность(precision) и F1-мера.
Рисунок 1. Экспериментальные оценки рассмотренных алгоритмов.
Эксперимент показал, что характеристики эффективности модифицированного байесовского классификатора в целом выше, чем у традиционного байесовского классификатора.
Список литературы
- Advanced Science and Technology Letters Classification Scheme of Unstructured Text Document using TF-IDF and Naive Bayes Classifier https://onlinepresent.org/proceedings/vol111_2015/50.pdf
- Ljunglof P., Wiren M. Syntactic Parsing // Handbook of Natural Language Processing, Second Edition. 2nd ed. / Ed. by lndurkhva N., Damerau F.J. Chapman and llall/CRC, 2010.P. 59-92.
- Автоматическая обработка текстов на естественном языке н компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011 — 272с.
- Машинный фонд русского языка. // type=»book» name=»ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ» description=»В статье рассмотрена классификация текстовых потоков с помощью наивного байесовского классификатора и его модификация.. Предложен реальный классификатор, позволяющий обрабатывать текстовые потоки в режиме реального времени.» author=»Субботин Артем Николаевич» publisher=»Басаранович Екатерина» pubdate=»2016-12-10″ edition=»euroasia-science.ru_#29_25.08.2016″ ebook=»yes» ]