数据挖掘究竟在挖什么？我们如何充分利用它？

程序员文章站 2023-12-01 19:40:04

随着信息科技的进步，数据的收集变得十分便利，不同来源的信息与数据，涌入我们预先设计好的数据仓储。这些信息透过数据挖掘的技术组合在一起，就可快速地勾勒出每个人对生活的品味、特征，并进一步影响我们的生活。...

下面显示数据化世界的一个场景。

客服：「这里是xx披萨店，您好！请问有什么需要我为您服务？」

顾客：「你好，我想要………」

客服：「先生，请先告诉我您的会员卡号码！」

顾客：「我的会员卡号码是xxxxxxxx」

客服：「林先生您好，您是住在…..，家庭电话是xxxxxxxx，公司电话是xxxxxxxx，移动电话是xxxxxxxxxx(1.链接客户资料仓储)。请问这些信息是否有需要更新？」

顾客：「为什么你知道我所有的电话号码？」

客服：「林先生，因为我们联机到公司的顾客关系管理系统！」

顾客：「我想要一个海鲜披萨……」

客服：「林先生，海鲜披萨不适合您！根据您的医疗记录(2.链接医疗资料仓储)，您有高血压和胆固醇偏高的问题」

顾客：「那……你们有什么可以推荐的？」

客服：「您可以试试我们的低脂健康披萨！」

顾客：「你怎么知道我会喜欢吃这种的？」

客服：「因为您上星期一在*图书馆借了一本《低脂健康食谱》(3.链接图书借阅数据仓储)」

顾客：「好…我要一个特大披萨，可以刷卡吗？」

客服：「林先生，对不起，请您付现！因为您的信用卡已经刷爆了。您现在还欠银行十万四千八百零七元，而且还不包括房贷利息(4.链接金融资料仓储-信用卡)！」

顾客：「喔！那我先去附近的提款机领钱！」

客服：「林先生，根据您的记录，您已经超过今日提款机提款限额(5.链接金融资料仓储-现金卡)！」

顾客：「……＃@$%^&$%^&※!」

客服：「林先生，请您说话小心一点。您在20xx年x月x日用脏话侮辱警察，被判了十日拘役(6.链接刑事刑案数据库)！请问还需要什么吗?」

顾客：「没有了！是不是有送三罐可乐？」

客服:「是的！不过根据记录(2.链接医疗资料仓储)，您有糖尿病…………」

以上的例子可以看到，数据化整合世界所带给我们思考上的冲击。同时，这样的场景正逐渐渗透到我们的生活当中，利用数据挖掘的数据化营销方式，将颠覆许多传统的营销模式。

究竟什么是数据挖掘？

数据挖掘是收集、清理、处理、分析并从数据中获得有用见解的研究。在实际应用中遇到的问题域、应用、公式和数据表示方面存在很大差异。因此，“数据挖掘”是一个广泛的术语，用于描述数据处理的这些不同方面。

数据的泛滥是科技进步和现代生活各个方面信息化的直接结果。因此，检查一个人是否可以从可用数据中为特定应用目标提取简明而可行的见解是自然而然的。这就是数据挖掘任务的来源。原始数据可能是任意的、非结构化的，甚至是不适合自动处理的格式。例如，手动收集的数据可能来自不同格式的异构数据源，但不知何故需要通过自动化计算机程序进行处理以获取见解。为了解决这个问题，数据挖掘分析人员使用一系列处理流程，将原始数据收集，清理并转换为标准格式。数据可以存储在商业数据库系统中，并通过使用分析方法进行最终处理。实际上，尽管数据挖掘经常让人联想到分析算法的概念，但事实是绝大多数工作都与流程的数据准备部分有关。这种处理流程在概念上类似于从矿石到最终产品的实际采矿过程。“采矿”一词源于此类推。

那么，如果把数据比作是矿石的话，大数据挖掘技术就是要从矿石中提炼出黄金，并形成各种精致的制成品发挥作用的过程。它既能够通过移动应用和云服务追踪和提升个人的生活品质，也能为现代企业带来更高效和稳健的管理方式。小到个人，大到企业和国家，大数据均是极度重要的一个议题，需要我们真正的深入理解它。

大数据分析挖掘出了数据的深层价值吗？

每个人都知道数据是有价值的，世界上最大的公司都是以数据为基础开展业务的。人工智能算法正在大量使用数据，但数据与像苹果和理发这样正常的商品和服务交易有所不同。数据就像公共物品一样可以被反复利用。它还具有溢出效应，不仅有正面影响（例如有助于改善医疗保健），也有负面影响（例如个人信息的泄露），这使得数据的价值很难被估量。

由剑桥大学经济学家黛安·科伊尔主导的一份新的报告试图通过理解数据的价值以及谁将从中受益来解决这一问题。她表示，市场价格往往不能真实反映出数据的全部价值，因为在通常情况下数据交易太过浅显。此外，虽然社会对于滥用个人数据的危害的重视程度很高，但这份报告还是强调了数据对于“全社会广泛的经济福祉”所做出的贡献，这赋予了数据除简单的货币价值外更深层次的价值。她概述了各种数据类型和用途。有些类型的数据可能聚合起来更有价值，而另一些则单独就有价值。例如，将一名患者的病历和其他所有患者的病历汇总在一起时，它或许才是最有价值的，而当利用一个人的网页浏览记录对其进行广告轰炸时，单独的数据就是有价值的。数据的及时性也很重要：对于汽车gps导航系统来说，手机实时定位记录仅在10分钟内是有价值的，而今天的零售交易记录对于预测明年的需求量是有价值的。到目前为止，数据经济还未能很好地区分数据的这些特质。科伊尔认为，我们需要采用一种新的思维方式，并依托数据信托等机构，以确保信息的公平分配。她表示，我们不应该从“所有权”的角度来看待个人信息，而应该从“访问权”的角度来看待。因此，人们可以控制数据的使用方式，而不该将其视为一种货币化的中奖彩票。她认为，这一点应该被广泛适用。对于*来说，正确的策略或许应该是让数据能够被*访问。

6款优秀的数据挖掘工具

能否充分利用数据，取决于是否有合适的工具来清理、准备、合并并正确分析。今天小编就为大家介绍六款强大的开源数据挖掘工具。

1、weka

该工具基于 java 版本，应用在许多不同的应用中，包括数据分析以及预测建模的可视化和算法。与 rapidminer 相比优势在于，它在 gnu 通用公共许可证下是免费的，因为用户可以按照自己的喜好选择自定义。支持多种标准数据挖掘任务，包括数据预处理、收集、分类、回归分析、可视化和特征选取。添加序列建模后，weka 将会变得更强大，但目前不包括在内。

2、rapidminer

该工具是用 java 语言编写的，通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是，用户无需写任何代码。它是作为一个服务提供，而不是一款本地软件。值得一提的是，该工具在数据挖掘工具榜上位列榜首。

除了数据挖掘，rapidminer 还提供如数据预处理和可视化、预测分析和统计建模、评估和部署等功能。更厉害的是它还提供来自 weka(一种智能分析环境)和 r 脚本的学习方案、模型和算法。

rapidminer 分布在 agpl 开源许可下，可以从 sourceforge 上下载。sourceforge 是一个开发者进行开发管理的集中式场所，大量开源项目在此落户，其中就包括*使用的 mediawiki。

3、nltk

当涉及到语言处理任务，没有什么可以打败 nltk。nltk 提供了一个语言处理工具，包括数据挖掘、机器学习、数据抓取、情感分析等各种语言处理任务。而您需要做的只是安装 nltk，然后将一个包拖拽到您最喜爱的任务中，您就可以去做其他事了。因为它是用 python 语言编写的，你可以在上面建立应用，还可以自定义它的小任务。

4、orange

python 之所以受欢迎，是因为它简单易学并且功能强大。如果你是一个 python 开发者，当涉及到需要找一个工作用的工具时，那么没有比 orange 更合适的了。它是一个基于 python 语言，功能强大的开源工具，并且对初学者和专家级的大神均适用。此外，你肯定会爱上这个工具的可视化编程和 python 脚本。它不仅有机器学习的组件，还附加有生物信息和文本挖掘，可以说是充满了数据分析的各种功能。

5、knime

数据处理主要有三个部分：提取、转换和加载。而这三者 knime 都可以做到。knime 为您提供了一个图形化的用户界面，以便对数据节点进行处理。它是一个开源的数据分析、报告和综合平台，同时还通过其模块化数据的流水型概念，集成了各种机器学习的组件和数据挖掘，并引起了商业智能和财务数据分析的注意。 knime 是基于 eclipse，用 java 编写的，并且易于扩展和补充插件。其附加功能可随时添加，并且其大量的数据集成模块已包含在核心版本中。

6、r-programming

如果我告诉你r项目，一个 gnu 项目，是由 r(r-programming简称，以下统称r)自身编写的，你会怎么想?它主要是由 c 语言和 fortran 语言编写的，并且很多模块都是由 r 编写的，这是一款针对编程语言和软件环境进行统计计算和制图的免费软件。 r语言被广泛应用于数据挖掘，以及开发统计软件和数据分析中。近年来，易用性和可扩展性也大大提高了 r 的知名度。除了数据，它还提供统计和制图技术，包括线性和非线性建模，经典的统计测试，时间序列分析、分类、收集等等。

上一篇：自己写操作系统难吗（教你设计一个简单的系统）

下一篇：计算机做前端好还是后端好（详解两者就职优劣势）