数据挖掘核心技术揭秘
程序员文章站
2022-09-02 23:01:39
一:简介
数据挖掘主要可以分为三类:聚类、分类、回归 Pig SQL脚本语言,生成自定义函数 MATLAB语言 分为主接指令交互和M文件的编程方式 WEKA 机器学习软件 -> Rap...
一:简介
数据挖掘主要可以分为三类:聚类、分类、回归 Pig SQL脚本语言,生成自定义函数 MATLAB语言 分为主接指令交互和M文件的编程方式 WEKA 机器学习软件 -> Rapodminer R语言的学习方法二:数学基础
主要需要的数学知识有:概率统计、矩阵理论、相似度计算、线性代数(最小二乘法)三:数据处理技术
索引技术包括:数据库索引和文本索引(倒排索引) 外排序、MapReduce技术、hash技术(Bloom filter)四:聚类
聚类与分类的不同在于具有数据特征的选取和提取的过程> -K均值聚类、K-medoids聚类(划分聚类) > -BIRCH (层次聚类)离群点挖掘技术:统计、邻近度、密度、聚类、高维数据
五:分类
决策树:求取净现值的期望值大于等于零的概率(采样&分裂)信息熵、信息增益 ID3算法、C4.5算法 K近邻分类(基于实例的学习)
K近邻算法 — 通过加权重或者近点合并客服数据不对称) K-D树 — 主要应对于K近邻索引->多维空间搜索(范围、最近邻)
支持向量机:实现间隔最大化已得到最优分类,等同求解一个凸二次规划的最优化算法
局限:大规模样本训练、多分类问题 最优决策边界的选取核函数:将低维不可分数据转化为高维可分
K(xi, xj) = (xi , xj+1)^d
K (xi, xj) = exp (- )
上一篇: ASP.NET Web API 过滤器创建、执行过程(一)
下一篇: Python 文件操作