欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python数据挖掘——基础知识

程序员文章站 2022-05-04 14:13:46
Python数据挖掘——基础知识 数据挖掘又称从数据中 挖掘知识、知识提取、数据/模式分析 即为:从数据中发现知识的过程 1、数据清理 (消除噪声,删除不一致数据) 2、数据集成 (多种数据源 组合在一起) 3、数据选择 (从数据库中提取和分析任务相关的数据) 4、数据变换 (通过汇总或聚焦操作,把 ......

python数据挖掘——基础知识

  • 数据挖掘又称从数据中 挖掘知识、知识提取、数据/模式分析

  • 即为:从数据中发现知识的过程

    • 1、数据清理 (消除噪声,删除不一致数据)

    • 2、数据集成 (多种数据源 组合在一起)

    • 3、数据选择 (从数据库中提取和分析任务相关的数据)

    • 4、数据变换 (通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)

    • 5、数据挖掘 (基本步骤,使用智能化方法提取数据)

    • 6、模式评估 (根据某种兴趣度量,识别代表知识的真正的有趣模式)

    • 7、知识表示 (使用可视化和知识表示技术,向用户提供数据挖掘的知识)

  • 广义:从大量的数据中挖掘有趣模式和知识的过程

  • 数据挖掘的模式:

    • 描述性:描述性挖掘任务刻画目标数据中数据的一般性质

    • 预测性:预测性挖掘任务在当前数据上进行归纳,以便作出预测

  • 数据挖掘功能

    • 离群点分析

    • 特征化与区分

      • 数据特征化 是目标类数据的一般性/特性的汇总

      • 数据区分是将目标数据对象的一般性 与一个/多个对比类对象的一般性进行比较

    • 频繁模式、关联和相关性

      • 频繁模式包括频繁项集、序列模式和频繁子结构

      • 频繁项集挖掘是频繁模式的基础

    • 聚类分析

      • 最大化类内相似性

      • 最小化类间相似性

    • 分类与回归

  • 数据挖掘使用的技术

    • 统计学

    • 数据库系统

    • 数据仓库

    • 信息检索

    • 机器学习

    • 模式识别

    • 可视化

    • 算法

    • 高性能计算

    • 应用

  • 数据挖掘的主要问题

    • 挖掘方法

    • 用户交互

    • 有效性与伸缩性

    • 数据类型的多样性

    • 数据挖掘与社会