人工智能(特征选择训练集特征)
一、特征选择
1、特征选择是什么
1)什么是特征?
鸟:羽毛颜色、眼睛宽度、是否有爪子、爪子长度
2)特征选择是什么
特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变或不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。
主要方法(三大武器):Filter(过滤器):VarianceThreshold
Embedded(嵌入式):正则化、决策树
Wrapper(包裹式)
3)特征选择原因
冗余:部分特征的相关度高,容易消耗计算性能
噪声:部分特征对预测结果有影响
2、sklearn特征选择API
sklearn.feature_selection.VarianceThreshold
VarianceThreshold语法
● VarianceThreshold(threshold=0.0)
● 删除所有低方差特征
● Variance.fit_transform(X)
● X:numpy array格式的数据[n_samples,n_features]
● 返回值:训练集差异低于threshold的特征将被删除。
● 默认值是保留所有非零方差特征,即删除所有样本。
● 中具有相同值的特征。
代码例子:
# coding:utf-8
from sklearn.feature_selection import VarianceThreshold
def var():
variance= VarianceThreshold(threshold=0.0)
data = variance.fit_transform([[0, 2, 0, 3],
[0, 1, 4, 3],
[0, 1, 1, 3]])
print(data)
def main():
var()
if __name__ == '__main__':
main()
输出:
[[2 0]
[1 4]
[1 1]]
3、其他特征选择方法
● 神经网络
二、主成分分析
1、sklearn主成分分析API
sklearn.decompostion
2、PCA是什么
本质:PCA是一种分析、简化数据集的技术
目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。
作用:可以削减回归分析或者聚类分析中特征的数量。
场景:特征数量达到上百的时候,可以考虑PCA进行数据简化。
效果(副作用):数据也会改变,特征数量也会介绍。
3、PCA举例
4、PCA语法
● PCA(n_components=None)
● 将数据分解为较低维数空间
● PCA.fit_transform(X)
● X:numpy array格式的数据[n_samples,n_features]
● 返回值:转换后的指定维度的array
代码例子:
# coding:utf-8
from sklearn.decomposition import PCA
def pca():
pca = PCA(n_components=0.9)
data = pca.fit_transform([[2, 8, 4, 5],
[6, 3, 0, 8],
[5, 4, 9, 1]])
print(data)
def main():
pca()
if __name__ == '__main__':
main()
输出:
[[ 1.28620952e-15 3.82970843e+00]
[ 5.74456265e+00 -1.91485422e+00]
[-5.74456265e+00 -1.91485422e+00]]
本文地址:https://blog.csdn.net/kogodlife/article/details/107136764
推荐阅读
-
python实现求特征选择的信息增益
-
Python决策树之基于信息增益的特征选择示例
-
人工智能(特征选择训练集特征)
-
Feature Selection For Machine Learning in Python (Python机器学习中的特征选择)
-
ML之FE:利用FE特征工程(分析两两数值型特征之间的相关性)对AllstateClaimsSeverity(Kaggle2016竞赛)数据集实现索赔成本值的回归预测
-
特征选择-weka搜索函数
-
特征选择-weka搜索函数
-
初识人工智能(二):机器学习(二):sklearn数据特征预处理
-
python 3.x实现特征选择ReliefF算法
-
web前端篇:CSS使用,样式表特征,选择器