逻辑回归乳腺癌的数据集

程序员文章站 2022-07-14 12:53:39

...

逻辑回归

回归，用于处理和预测连续型标签的算法

线性回归完成的是回归拟合任务，而对于分类任务，我们同样需要一条线，但不是去拟合每个数据点，而是把不同类别的样本区分开来。

正则化

L1范式表现为参数向量中的每一个参数的绝对数之和
L2范式表现为参数向量中的每一个参数的平方和的开方值
正则化强度逐渐增大，参数的取值会逐渐变小，L1正则化会将参数压缩为0，L2正则化只会让参数尽量小，不会取到0

导入所需要的的库

from sklearn.linear_model import LogisticRegression as LR
import numpy as np
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score    # 引入比率分数，评估分类的好坏
from sklearn.datasets import load_breast_cancer  #引入乳腺癌的数据集

#L1，L2正则化的区别
LR()

cancer = load_breast_cancer()
x = cancer.data
y = cancer.target
cancer.data.shape   #  （569,30） 569个样本，3个特征
L1 = LR(penalty='l1',solver = 'liblinear', C=0.5,max_iter=1000)
L2 = LR(penalty='l2',solver = 'liblinear', C=0.5,max_iter=1000)
L1 = L1.fit(x,y)
L1.coef_   #保留特征贡献较大的值

逻辑回归乳腺癌的数据集

#特征选择   
#PCA()是特征创造
(L1.coef_ != 0).sum(axis=1)  #查看保留了多少个特征，查看特征参数不为0的总数
#结果 array([10])

L2 = L2.fit(x,y)
L2.coef_

逻辑回归乳腺癌的数据集

l1 = []
l2 = []
l1test = []
l2test = []
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state = 420)
'''
accuracy_score()分类准确率分数是指所有分类正确的百分比。
y_pred = [0,2,1,3]
y_true = [0,1,2,3]
accuracy_score(y_true,y_pred)
'''
np.linspace(0.05,1,19)  #0.05起始数，1是终止数，19 是要19个数，他会平均取出来19个数

逻辑回归乳腺癌的数据集

for i in np.linspace(0.05,1,19):
    L1 = LR(penalty='l1',solver = 'liblinear', C=i,max_iter=1000)
    L2 = LR(penalty='l2',solver = 'liblinear', C=i,max_iter=1000)
    
    #accuracy_score分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解，但是它不能告诉你响应值的潜在分布，并且它也不能告诉你分类器犯错的类型。
    L1 = L1.fit(x_train,y_train)
    l1.append(accuracy_score(L1.predict(x_train),y_train))
    l1test.append(accuracy_score(L1.predict(x_test),y_test))
    
    L2 = L2.fit(x_train,y_train)
    l2.append(accuracy_score(L2.predict(x_train),y_train))
    l2test.append(accuracy_score(L2.predict(x_test),y_test))


graph = [l1,l2,l1test,l2test]
color = ['green','black','lightgreen','gray']
label = ['l1','l2','l1test','l2test']

plt.figure(figsize=(8,8))
for i in range(len(graph)):
    plt.plot(np.linspace(0.05,1,19),graph[i],color[i],label=label[i])
plt.legend()
plt.show()

逻辑回归乳腺癌的数据集

相关标签： python 数据分析与挖掘逻辑回归

上一篇： Mac 安装Sublime Text和一些设置

下一篇： padding属性的一些用法

逻辑回归乳腺癌的数据集

逻辑回归

正则化

对sklearn的使用之数据集的拆分与训练详解(python3.6)

pandas数据集的端到端处理

python 筛选数据集中列中value长度大于20的数据集方法

TensorFlow数据集（二）——数据集的高层操作

数据结构（线性结构习题）Problem A: 求集合的交并补集

基于jupyter notebook的python编程（Win10通过OpenCv-3.4.1进行人脸口罩数据集的模型训练并进行戴口罩识别检测）

Windows数据收集器集管理器的设置方法

Tensorflow之构建自己的图片数据集TFrecords的方法

详解tensorflow训练自己的数据集实现CNN图像分类

Flask入门数据库的查询集与过滤器(十一)

逻辑回归 乳腺癌的数据集

逻辑回归

正则化

对sklearn的使用之数据集的拆分与训练详解(python3.6)

pandas数据集的端到端处理

python 筛选数据集中列中value长度大于20的数据集方法

TensorFlow数据集（二）——数据集的高层操作

数据结构（线性结构习题）Problem A: 求集合的交并补集

基于jupyter notebook的python编程（Win10通过OpenCv-3.4.1进行人脸口罩数据集的模型训练并进行戴口罩识别检测）

Windows数据收集器集管理器的设置方法

Tensorflow之构建自己的图片数据集TFrecords的方法

详解tensorflow训练自己的数据集实现CNN图像分类

Flask入门数据库的查询集与过滤器(十一)

逻辑回归乳腺癌的数据集