朴素贝叶斯分类算法(matlab实现)
程序员文章站
2022-07-14 15:18:53
...
一、原理:
对于两个事件A,B而言,事件发生的概率记为P(A)、P(B)。
事件A发生的前提下,事件B发生的概率为:
事件B发生的前提下,事件A发生的概率为:
由此可得事件AB同时发生的概率为:
从而推导出贝叶斯公式:
在已知的一个数据集中,决策变量为x1, x2, x3......,目标量是y,就能够引用上述公式:
在y取不同值时,分母都是固定的常量,因此由马尔科夫假设可以进一步近似推导:
二、应用方式:
假设给定一个数据集,那么以这个数据集为基础,对于一个新的决策向量,能够通过上述公式得到一个最大概率的值。将做大概率事件作为目标值输出,就是对此决策向量的分类。
以下列数据为例子:(1:是,0:否)
x1:声音好听 | x2:长得好看 | x3:懂得为人 | x4:成绩优异 | y:是否有对象 |
1 | 0 | 0 | 0 | 0 |
0 | 1 | 1 | 0 | 1 |
0 | 0 | 1 | 1 | 1 |
1 | 0 | 1 | 0 | 1 |
0 | 1 | 1 | 0 | 1 |
1 | 1 | 1 | 1 | 0 |
0 | 0 | 0 | 1 | 0 |
那么现在得知一个人(x1=1,x2=0,x3=0,x4=1),他是否有(将有)对象?
- P(xi|y=1) = [1/4, 2/4, 0, 1/4] ; P(xi|0)=[2/3, 2/3, 2/3, 2/3]
- P(y=1) = 4/7 ; P(y=0)=3/7
- 有对象:P = 0
- 没对象:P = 48/567 = 0.0847
说明这个人很可能会有对象,由于数据量的缘故,例子没有太大的说服性,但假如数据量足够,那么最后就能反映一个具有很高说服性的目标值。
三、MATLAB简略实现代码:
clc;clear all;
input = load("BayesData.txt")
[l,w]=size(input);
count = zeros(2,w);
%统计各个量的个数,count(1,i):为y=1,第i个决策量为1的个数
for i=1:1:l
for j=1:1:w
if input(i,j)==1 && input(i,end)==1
count(1,j)=count(1,j)+1;
elseif input(i,j)==1 && input(i,end)==0
count(2,j)=count(2,j)+1;
end
end
end
count(2,end)=l-count(1,end);
test_data = [1 0 0 1];
answer = [0,0];
%case 1:
temp = 1;
for i=1:1:w-1
if test_data(i)==1
temp=temp*count(1,i)/count(1,end);
else
temp=temp*(1-count(1,i)/count(1,end));
end
end
answer(1)=count(1,end)/l*temp;
%case 0:
temp = 1;
for i=1:1:w-1
if test_data(i)==1
temp=temp*count(2,i)/count(2,end);
else
temp=temp*(1-count(2,i)/count(2,end));
end
end
answer(2)=count(2,end)/l*temp;
answer
if answer(1)>answer(2)
disp("可能会有对象")
else
disp("可能没有对象")
end
实验结果:
从一定角度上看,一个人声音好听又成绩好,但是长得不好看还情商低,还是比较难找对象的。(声音好听不露脸,一律参考乔碧萝殿下!)