机器学习概况—总结
程序员文章站
2022-07-14 19:24:00
...
一、数据挖掘和机器学习概况
数据挖掘=机器学习+数据库+统计学
二、数据挖掘的六大任务
2.1 分类问题(Classfication)
构建一个函数(分类器),对样本进行判断
典型分类问题:垃圾邮件识别、广告点击率预测
文本分类、 信用评分、
图像识别、 商品推荐、
用户流失预测
2.2 聚类问题(Clustering)
用户分群
相似文档聚类
2.3 回归问题(Regression)
构建一个函数,对目标变量进行预估
房价预测
收入预测
2.4 关联问题(Association)
商品买了A 还买什么
电影看了B 还看了什么
商品推荐
2.5 序列问题(Sequence)/找规律
购物模式预测
网站点击预测
中文分词
DNA序列分析
2.6 异常检测问题(Outlier Detection)
信用卡欺诈行为检测
网络安全检测
不合格产品检测
三、数据挖掘方法论(CRISP-DM)
3.1 数据挖掘流程:CRISP-DM
商业理解( Business Understanding)
数据理解(Data Understanding)
数据准备(Data Preparation)
构建模型(Modeling)
模型评估(Evaluation)
模型发布(Deployment)
3.2 流程具体任务和目标
四、一个典型的预测模型的构建和应用流程
分类和回归都是预测模型
数据集->机器学习系统/算法-> 预测模型 -> 评分引擎 ->应用系统
五、机器学习算法及分类
监督学习
增强学习
非监督学习:降维算法 PCA /K值 ,EM算法
六、数据挖掘与数据仓库和OLAP
数据仓库和OLAP关系
数据仓库建模方式
了解OLAP(联机分析处理)基本概念和技术
OLAP和OLTP(联机事务处理)不同的概念
OLAP 核心概念:维度(dimension)和度量(measurement)
OLAP 基本操作:钻取、切片、旋转、穿透
OLAP 实现方式:ROLAP.MOLAP
简单理解:OLAP=多维分析报表=Excel数据透视表
七、数据挖掘和机器学习的用于案例
亚马逊购物网站商品推荐
精准广告 RTB实时竞价广告原理
风险管理案例:芝麻信用
图像识别(人脸识别,分析,比对,搜索)
自然语言处理:文本挖掘
上一篇: 常用编码格式算法