Номер части:
Журнал
ISSN: 2411-6467 (Print)
ISSN: 2413-9335 (Online)
Статьи, опубликованные в журнале, представляется читателям на условиях свободной лицензии CC BY-ND

ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ



Науки и перечень статей вошедших в журнал:
DOI:
Дата публикации статьи в журнале:
Название журнала: Евразийский Союз Ученых — публикация научных статей в ежемесячном научном журнале, Выпуск: , Том: , Страницы в выпуске: -
Данные для цитирования: . ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ // Евразийский Союз Ученых — публикация научных статей в ежемесячном научном журнале. Технические науки. ; ():-.

Решение задачи классификации является важным, когда речь идет о больших объемах информации, трудно поддающихся ручной обработке, особенно если она имеет потоковый характер, как например в случае с потоками новостей. Каждый день генерируются десятки тысяч новостных сообщений. Чтобы представлять их в удобочитаемом и доступном виде необходимо произвести классификацию этих сообщений по их тематикам.

В наивном байесовском классификаторе каждый документ рассматривается как множество терминов, где порядок этих терминов не имеет значения[2]. Текстовый поток для данной задачи представляется как множество текстовых сообщений, получаемых из источников в случайные моменты времени. При этом вероятность того, что данное сообщение из потока принадлежит определенному классу сj равна:

Априорные вероятности классов P(cj) рассчитываются как отношение количества документов в классе cjк общему числу документов коллекции[2].

Метод позволяет произвести процедуру классификации сравнительно быстро, это отвечает требованию оперативности алгоритма в контексте задачи классификации потоков текстовой информации в реальном времени.

Алгоритм  обучения состоит в том, чтобы найти априорные вероятности P(c), а так же вероятности признаков для каждого класса. Вероятностями классификационных признаков здесь будут являться числовые характеристики термов сообщения.

Предлагаемая модифицированная модель НБК заключается в следующем. В традиционном наивном байесовском классификаторе мерой вероятности принадлежности считается частотность термина:

где  — количество вхождений термина   документе класса  Этот подход не учитывает частоту употребления термина в документах других классов обучающей выборки.

Предлагается следующий подход к расчету весов терминов для классов:

  • Рассчитывать частотность термина для данного класса
  • Рассчитывать обратную частотность термина в документах всей коллекции.
  • Рассчитывать вес термина согласно правилам:
    • Термин тем важнее для класса, чем чаще он используется в документах этого класса.
    • Термин тем незначительнее для класса, чем чаще он используется в документах всей коллекции.

Обратная частотность термина в документах всей коллекции рассчитывается как

Здесь  — количество документов всей коллекции,  — Количество документов, где встречается термин t.

Перемножая частотность термина в классе и обратную частотность термина во всей коллекции мы получим большой вес для терминов, которые часто используются в данном классе, и редко используются в других классах, маленький вес для терминов, которые часто используются в документах всей коллекции [1].

Предлагается принять метрику tf-idf как меру вероятности принадлежности термина классу. Тогда байесовский классификатор будет выглядеть так:

Для проверки эффективности алгоритма было использовано тестовое множество корпуса новостей российских газет 90-х годов в размере 1000 статей [4].

Далее была проведена классификация этих статей с помощью традиционного наивного байесовского классификатора (НБК) и с  помощью модифицированного наивного байесовского классификатора (МНБК).

В качестве характеристик, описывающих качество классификации использовались такие оценки, как полнота (recall), точность(precision) и F1-мера.

Рисунок 1. Экспериментальные оценки рассмотренных алгоритмов.

Эксперимент показал, что характеристики эффективности модифицированного байесовского классификатора в целом выше, чем у традиционного байесовского классификатора.

Список литературы

  1. Advanced Science and Technology Letters Classification Scheme of Unstructured Text Document using TF-IDF and Naive Bayes Classifier https://onlinepresent.org/proceedings/vol111_2015/50.pdf
  2. Ljunglof P., Wiren M. Syntactic Parsing // Handbook of Natural Language Processing, Second Edition. 2nd ed. / Ed. by lndurkhva N., Damerau F.J. Chapman and llall/CRC, 2010.P. 59-92.
  3. Автоматическая обработка текстов на естественном языке н компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011 — 272с.
  4. Машинный фонд русского языка. // type=»book» name=»ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ» description=»В статье рассмотрена классификация текстовых потоков с помощью наивного байесовского классификатора и его модификация.. Предложен реальный классификатор, позволяющий обрабатывать текстовые потоки в режиме реального времени.» author=»Субботин Артем Николаевич» publisher=»Басаранович Екатерина» pubdate=»2016-12-10″ edition=»euroasia-science.ru_#29_25.08.2016″ ebook=»yes» ]
Список литературы:


Записи созданы 9819

Похожие записи

Начните вводить, то что вы ищите выше и нажмите кнопку Enter для поиска. Нажмите кнопку ESC для отмены.

Вернуться наверх
jendralmaya Slot slot gacor 2023 slot demo slot demo slot deposit pulsa slot demo slot demo slot slot deposit pulsa slot data hk data sgp data sdy data macau https://sebatik.wicida.ac.id/public/slot-demo/ slot demo slot demo
404: Not Found