朴素贝叶斯算法的python实现方法

程序员文章站 2023-10-19 09:14:54

本文实例讲述了朴素贝叶斯算法的python实现方法。分享给大家供大家参考。具体实现方法如下：朴素贝叶斯算法优缺点优点：在数据较少的情况下依然有效，可以处理多类别问题...

本文实例讲述了朴素贝叶斯算法的python实现方法。分享给大家供大家参考。具体实现方法如下：

朴素贝叶斯算法优缺点

优点：在数据较少的情况下依然有效，可以处理多类别问题

缺点：对输入数据的准备方式敏感

适用数据类型：标称型数据

算法思想：

比如我们想判断一个邮件是不是垃圾邮件，那么我们知道的是这个邮件中的词的分布，那么我们还要知道：垃圾邮件中某些词的出现是多少，就可以利用贝叶斯定理得到。

朴素贝叶斯分类器中的一个假设是：每个特征同等重要

函数
loaddataset()

创建数据集，这里的数据集是已经拆分好的单词组成的句子，表示的是某论坛的用户评论，标签1表示这个是骂人的

createvocablist(dataset)

找出这些句子中总共有多少单词，以确定我们词向量的大小

setofwords2vec(vocablist, inputset)

将句子根据其中的单词转成向量，这里用的是伯努利模型，即只考虑这个单词是否存在

bagofwords2vecmn(vocablist, inputset)

这个是将句子转成向量的另一种模型，多项式模型，考虑某个词的出现次数

trainnb0(trainmatrix,traincatergory)

计算p(i)和p(w[i]|c[1])和p(w[i]|c[0])，这里有两个技巧，一个是开始的分子分母没有全部初始化为0是为了防止其中一个的概率为0导致整体为0，另一个是后面乘用对数防止因为精度问题结果为0

classifynb(vec2classify, p0vec, p1vec, pclass1)

根据贝叶斯公式朴素贝叶斯算法的python实现方法计算这个向量属于两个集合中哪个的概率高

复制代码代码如下:

#coding=utf-8
from numpy import *
def loaddataset():
    postinglist=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'i', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classvec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postinglist,classvec

#创建一个带有所有单词的列表
def createvocablist(dataset):
    vocabset = set([])
    for document in dataset:
        vocabset = vocabset | set(document)
    return list(vocabset)

def setofwords2vec(vocablist, inputset):
    retvocablist = [0] * len(vocablist)
    for word in inputset:
        if word in vocablist:
            retvocablist[vocablist.index(word)] = 1
        else:
            print 'word ',word ,'not in dict'
    return retvocablist

#另一种模型
def bagofwords2vecmn(vocablist, inputset):
    returnvec = [0]*len(vocablist)
    for word in inputset:
        if word in vocablist:
            returnvec[vocablist.index(word)] += 1
    return returnvec

def trainnb0(trainmatrix,traincatergory):
    numtraindoc = len(trainmatrix)
    numwords = len(trainmatrix[0])
    pabusive = sum(traincatergory)/float(numtraindoc)
    #防止多个概率的成绩当中的一个为0
    p0num = ones(numwords)
    p1num = ones(numwords)
    p0denom = 2.0
    p1denom = 2.0
    for i in range(numtraindoc):
        if traincatergory[i] == 1:
            p1num +=trainmatrix[i]
            p1denom += sum(trainmatrix[i])
        else:
            p0num +=trainmatrix[i]
            p0denom += sum(trainmatrix[i])
    p1vect = log(p1num/p1denom)#处于精度的考虑，否则很可能到限归零
    p0vect = log(p0num/p0denom)
    return p0vect,p1vect,pabusive

def classifynb(vec2classify, p0vec, p1vec, pclass1):
    p1 = sum(vec2classify * p1vec) + log(pclass1)    #element-wise mult
    p0 = sum(vec2classify * p0vec) + log(1.0 - pclass1)
    if p1 > p0:
        return 1
    else:
        return 0

def testingnb():
    listoposts,listclasses = loaddataset()
    myvocablist = createvocablist(listoposts)
    trainmat=[]
    for postindoc in listoposts:
        trainmat.append(setofwords2vec(myvocablist, postindoc))
    p0v,p1v,pab = trainnb0(array(trainmat),array(listclasses))
    testentry = ['love', 'my', 'dalmation']
    thisdoc = array(setofwords2vec(myvocablist, testentry))
    print testentry,'classified as: ',classifynb(thisdoc,p0v,p1v,pab)
    testentry = ['stupid', 'garbage']
    thisdoc = array(setofwords2vec(myvocablist, testentry))
    print testentry,'classified as: ',classifynb(thisdoc,p0v,p1v,pab)


def main():
    testingnb()

if __name__ == '__main__':
    main()

希望本文所述对大家的python程序设计有所帮助。

上一篇： Python 自动补全(vim)

下一篇：用Python编写一个国际象棋AI程序

朴素贝叶斯算法的python实现方法

朴素贝叶斯算法的python实现方法

朴素贝叶斯Python实例及解析

python实现朴素贝叶斯算法

python标准算法实现数组全排列的方法

Python实现LRU算法的2种方法

朴素贝叶斯分类算法原理与Python实现与使用方法案例

Python实现朴素贝叶斯分类器的方法详解

朴素贝叶斯算法的python实现方法

朴素贝叶斯算法

python通过BF算法实现关键词匹配的方法