Номер части:
Журнал
ISSN: 2411-6467 (Print)
ISSN: 2413-9335 (Online)
Статьи, опубликованные в журнале, представляется читателям на условиях свободной лицензии CC BY-ND

ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ



Науки и перечень статей вошедших в журнал:
DOI:
Дата публикации статьи в журнале:
Название журнала: Евразийский Союз Ученых — публикация научных статей в ежемесячном научном журнале, Выпуск: , Том: , Страницы в выпуске: -
Данные для цитирования: . ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ // Евразийский Союз Ученых — публикация научных статей в ежемесячном научном журнале. Технические науки. ; ():-.

Решение задачи классификации является важным, когда речь идет о больших объемах информации, трудно поддающихся ручной обработке, особенно если она имеет потоковый характер, как например в случае с потоками новостей. Каждый день генерируются десятки тысяч новостных сообщений. Чтобы представлять их в удобочитаемом и доступном виде необходимо произвести классификацию этих сообщений по их тематикам.

В наивном байесовском классификаторе каждый документ рассматривается как множество терминов, где порядок этих терминов не имеет значения[2]. Текстовый поток для данной задачи представляется как множество текстовых сообщений, получаемых из источников в случайные моменты времени. При этом вероятность того, что данное сообщение из потока принадлежит определенному классу сj равна:

Априорные вероятности классов P(cj) рассчитываются как отношение количества документов в классе cjк общему числу документов коллекции[2].

Метод позволяет произвести процедуру классификации сравнительно быстро, это отвечает требованию оперативности алгоритма в контексте задачи классификации потоков текстовой информации в реальном времени.

Алгоритм  обучения состоит в том, чтобы найти априорные вероятности P(c), а так же вероятности признаков для каждого класса. Вероятностями классификационных признаков здесь будут являться числовые характеристики термов сообщения.

Предлагаемая модифицированная модель НБК заключается в следующем. В традиционном наивном байесовском классификаторе мерой вероятности принадлежности считается частотность термина:

где  — количество вхождений термина   документе класса  Этот подход не учитывает частоту употребления термина в документах других классов обучающей выборки.

Предлагается следующий подход к расчету весов терминов для классов:

  • Рассчитывать частотность термина для данного класса
  • Рассчитывать обратную частотность термина в документах всей коллекции.
  • Рассчитывать вес термина согласно правилам:
    • Термин тем важнее для класса, чем чаще он используется в документах этого класса.
    • Термин тем незначительнее для класса, чем чаще он используется в документах всей коллекции.

Обратная частотность термина в документах всей коллекции рассчитывается как

Здесь  — количество документов всей коллекции,  — Количество документов, где встречается термин t.

Перемножая частотность термина в классе и обратную частотность термина во всей коллекции мы получим большой вес для терминов, которые часто используются в данном классе, и редко используются в других классах, маленький вес для терминов, которые часто используются в документах всей коллекции [1].

Предлагается принять метрику tf-idf как меру вероятности принадлежности термина классу. Тогда байесовский классификатор будет выглядеть так:

Для проверки эффективности алгоритма было использовано тестовое множество корпуса новостей российских газет 90-х годов в размере 1000 статей [4].

Далее была проведена классификация этих статей с помощью традиционного наивного байесовского классификатора (НБК) и с  помощью модифицированного наивного байесовского классификатора (МНБК).

В качестве характеристик, описывающих качество классификации использовались такие оценки, как полнота (recall), точность(precision) и F1-мера.

Рисунок 1. Экспериментальные оценки рассмотренных алгоритмов.

Эксперимент показал, что характеристики эффективности модифицированного байесовского классификатора в целом выше, чем у традиционного байесовского классификатора.

Список литературы

  1. Advanced Science and Technology Letters Classification Scheme of Unstructured Text Document using TF-IDF and Naive Bayes Classifier https://onlinepresent.org/proceedings/vol111_2015/50.pdf
  2. Ljunglof P., Wiren M. Syntactic Parsing // Handbook of Natural Language Processing, Second Edition. 2nd ed. / Ed. by lndurkhva N., Damerau F.J. Chapman and llall/CRC, 2010.P. 59-92.
  3. Автоматическая обработка текстов на естественном языке н компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011 — 272с.
  4. Машинный фонд русского языка. // type=»book» name=»ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ПОТОКОВ» description=»В статье рассмотрена классификация текстовых потоков с помощью наивного байесовского классификатора и его модификация.. Предложен реальный классификатор, позволяющий обрабатывать текстовые потоки в режиме реального времени.» author=»Субботин Артем Николаевич» publisher=»Басаранович Екатерина» pubdate=»2016-12-10″ edition=»euroasia-science.ru_#29_25.08.2016″ ebook=»yes» ]
Список литературы:


Записи созданы 9819

Похожие записи

Начните вводить, то что вы ищите выше и нажмите кнопку Enter для поиска. Нажмите кнопку ESC для отмены.

Вернуться наверх
https://www.apscuf.org/slot-gacor/slot gacorslot onlineslot gacorslot gacorslot gacorslot gacorslot gacorhttps://bxartsfactory.org/slot-gacor-maxwin/https://www.splayce.eu/slot-pulsa/https://esign.bogorkab.go.id/vendor/bin/https://snip.eng.unila.ac.id/wp-content/uploads/slot-gacor/http://desa-bolali.klatenkab.go.id/files/slot-gacor/https://www.jurnal.stimsurakarta.ac.id/public/journals/https://kobar.umkm.kalteng.go.id/files/slot-gacor/https://www.uniqhba.ac.id/assets/slot-gacor/https://www.staipibdg.ac.id/-/slot-online-gacor/https://disdagperin.bekasikota.go.id/slot-gacor/https://journal.widyatama.ac.id/slot-gacor/https://stis.ac.id/slot-gacor/https://gradosyposgrados.ucjc.edu/https://ejurnal.iainlhokseumawe.ac.id/public/slot-deposit-pulsa/ https://www.mope.gm/slot88/https://www.vantru.is/slot88/https://vipnumberbuy.com/slot-deposit-pulsa/https://bio-med.euroasia-science.ru/slot-deposit-dana/https://fastgoal.com/forum/-/slot-gacor/https://www.gamisaulia.com/slot-gacor/https://persianfootball.com/news/wp-content/uploads/2013/01/slot-gacor/https://radiochicha.perugamingshow.com/https://empleabilidad.uigv.edu.pe/slot-gacor/https://civil.annauniv.edu/slot-gacor/https://majubersamagroup.com/slot-gacor/https://fais.psu.ac.th/slot88/https://www.gardencity.university/slot-gacor/http://admission.mnsuam.edu.pk/slot-gacor/https://www.yckmc.edu.hk/slot-gacor/https://www.revistaamexco.com.mx/files/journals/1/articles/51/62c7819f6a734.htmlhttps://www.edithumbs.com/wp-content/uploads/2020/01/slot-gacor-deposit-dana/https://regencyinstitutions.com/uploads/https://beritarajaku.com/http://arc.salleurl.edu/develop/slot-deposit-pulsa/https://www.ducayne100.org/slot-gacor/https://parasolprojects.com/slot-gacor/https://www.kotabaruparahyangan.com/slot-gacor/http://discamino.org/slot-gacor/https://cmc.edu.vn/slot-gacor/https://www.kpsg-solutions.pt/slot-deposit-dana/https://katingankab.go.id/slot-online/http://sintang.go.id/slot-gacor/https://text.co.id/slot-gacor/https://www.stimsurakarta.ac.id/slot-gacor/http://www.loasis-traiteur.com/fileman/https://sipil.ft.unesa.ac.id/slot-gacor/https://kemahasiswaan.unesa.ac.id/slot-gacor/https://empleabilidad.uigv.edu.pe/slot-gacor/https://surjyotsna.org/slot88/https://unitedtowel.com/slot-deposit-pulsa/http://gpm.fe.unesa.ac.id/slot88/https://eapi.sabayon.org/https://www.zeleka.com/slot-gacor/https://nclthailand.com/slot88/https://ft.unesa.ac.id/slot-gacor/https://bot.unesa.ac.id/slot-deposit-pulsa/https://optical.botsolutions.org/slot-gacor/https://www.test-car.pt/slot-gacor/https://ejurnal.methodist.ac.id/files/slot-online/https://jurnal.kwikkiangie.ac.id/files/slot-gacor/https://www.amikmbp.ac.id/slot88/https://ifris.org/slot-gacor/https://biomedicineonline.org/slot-gacor/http://e-journal.sastra-unes.com/slot-gacor/https://www.rtpslotgacor.cc/https://www.fundacionclavel.org/situs-slot-gacor/https://www.fundacionclavel.org/slot88/https://ksrce.ac.in/gacor88/https://sushizobangkok.com/slot88/http://huaplachongnonsea.com/slot-gacor/https://enfermeriadermatologica.org/slot-gacor/http://www.rpchospital.com/slot-gacor/https://www.feiradossofas.pt/slot-gacor/https://sites.google.com/view/slot-gacor-terbaru-hari-ini/https://www.viagsite.com/https://bio-med.euroasia-science.ru/slot-deposit-dana/https://165.22.244.0/https://www.rtppastigacor88.com/http://enfermeriadermatologica.org/slot777/https://slot88.ice.edu.pt/https://belodent.org/-/slot-pulsa/https://history.soc.ku.ac.th/uploads/slot-gacor/https://www.kemasaja.com/slot-gacor/http://www.maktour.co.id/slot-gacor/https://seamolec.org/files/slot-gacor/https://sbyads.ru/slot88/http://www.woconf.com/slot-gacor/https://omnipacgroup.com/slot-gacor/https://icdemolicensewebapi.honeywell.com/https://www.fundacionclavel.org/slot-gacor/ gacor 88https://sshj.in/public/slot-deposit-dana/https://mbmscience.com/public/slot88/situs slot gacorhttps://peshawarhighcourt.gov.pk/slot-gacor/https://www.doutoresdoexcel.com.br/-/slot-gacor/https://mccm.ptcer.pl/slot-demo/https://academconsult.ru/slot-gacor/https://nje.org.na/slot-deposit-dana/https://journals.tma.uz/slot-gacor/https://muru.com.co/slot-deposit-pulsa/https://coresdaterra.com.br/slot-gacor/https://sasurie.com/slot-gacor/https://thejrns.org/slot-gacor/http://a0729171.xsph.ru/https://zombiigrice.com/slot-gacor/https://ijohmn.com/public/slot-gacor/https://www.kuhoo.com/wp-content/uploads/slot-deposit-dana/http://clc.cet.edu/judi-bola/https://www.ijmaberjournal.org/slot-gacor/https://ijorces.org/slot-gacor/https://virtusclean.com/slot-online/https://modernacademy-journal.synceg.net/slot-gacor/https://artescienza.org/wp-content/uploads/slot-gacor/https://journal.icter.org/public/slot-gacor/https://rumosdainformacao.ivc.br/5unsur3/https://dailyexpresstop.com/https://livepublicnews.com/https://cosy.univrab.ac.id/slot-online/https://www.unaki.ac.id/togel88/