欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

数据挖掘核心技术揭秘

程序员文章站 2022-09-02 23:01:39
一:简介 数据挖掘主要可以分为三类:聚类、分类、回归 Pig SQL脚本语言,生成自定义函数 MATLAB语言 分为主接指令交互和M文件的编程方式 WEKA 机器学习软件 -> Rap...

一:简介

数据挖掘主要可以分为三类:聚类、分类、回归 Pig SQL脚本语言,生成自定义函数 MATLAB语言 分为主接指令交互和M文件的编程方式 WEKA 机器学习软件 -> Rapodminer R语言的学习方法

二:数学基础

主要需要的数学知识有:概率统计、矩阵理论、相似度计算、线性代数(最小二乘法)

三:数据处理技术

索引技术包括:数据库索引和文本索引(倒排索引) 外排序、MapReduce技术、hash技术(Bloom filter)

四:聚类

聚类与分类的不同在于具有数据特征的选取和提取的过程
> -K均值聚类、K-medoids聚类(划分聚类)
> -BIRCH                  (层次聚类)
离群点挖掘技术:统计、邻近度、密度、聚类、高维数据

五:分类

决策树:求取净现值的期望值大于等于零的概率(采样&分裂)
信息熵、信息增益 ID3算法、C4.5算法 K近邻分类(基于实例的学习)
K近邻算法 — 通过加权重或者近点合并客服数据不对称) K-D树 — 主要应对于K近邻索引->多维空间搜索(范围、最近邻)

支持向量机:实现间隔最大化已得到最优分类,等同求解一个凸二次规划的最优化算法

局限:大规模样本训练、多分类问题 最优决策边界的选取

核函数:将低维不可分数据转化为高维可分

K(xi, xj) = (xi , xj+1)^d

K (xi, xj) = exp (- )