大数据到底要怎么学习?
程序员文章站
2022-03-22 13:21:46
今天为大家带来IT界最为火爆的大数据行业的硬核知识点——大数据挖掘技术的体系分析。想要了解大数据或者开始学习大数据的你一定不要错过。 对于大数据的挖掘请求,包括面向于文本的挖掘、机器学习等,挖掘算法的复杂度高、数据的计算量大,针对于大数据的规模大、速度快以及类型多样的特点,将大数据挖掘算法的研究方向 ......
今天为大家带来it界最为火爆的大数据行业的硬核知识点——大数据挖掘技术的体系分析。想要了解大数据或者开始学习大数据的你一定不要错过。
对于大数据的挖掘请求,包括面向于文本的挖掘、机器学习等,挖掘算法的复杂度高、数据的计算量大,针对于大数据的规模大、速度快以及类型多样的特点,将大数据挖掘算法的研究方向总结如下:
1)有效的大数据预处理技术大数据的规模大、处理速度快以及流式查询处理的需求使得在对大数据进行分析以及挖掘时,必须提高数据预处理能力,以提升响应效率。目前针对于流式大数据的约简技术,包括2种方式,一是基于数据的技术,其通过生成整个流式数据的概要或者选择其中的部分子集来实现约简,包括采样(sampling)、卸载技术(load-shedding)、梗概(sketching)、数据概要结构(synopsisdatastructures)、集成(aggregation),其中sampling、loadshedding以及sketching通过一定规则选取整个流式数据的子集来代替原始数据从而减少数据存储量、而synopsisdatastructures以及aggregation方法则通过概括整个数据流的方式实现约简;另一种约简方式是基于任务的技术,包括近似算法(approximationalgorithms)、滑动窗口技术(slidingwindow)以及输出粒度(algorithmoutputgranularity)的方法,其主要是从空间上减少整个数据流的计算规模,这种对原始数据进行压缩表达的思想更是在信号重建及还原领域得到充分体现,如文献将压缩感知理论用于宽带sar信号侦察,其基于信号的稀疏性,利用较少的压缩采样数据获得了较高的信号估计精度。
点击链接加入群聊【大数据学习交流】:https://jq.qq.com/?_wv=1027&k=5k1hvkc每天晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,
点击链接加入群聊【大数据学习交流】:https://jq.qq.com/?_wv=1027&k=5k1hvkc每天晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,
2)非向量数据挖掘以前数据挖掘多假设数据为向量数据,而大数据其结构具有多样性,包含了半结构化以及非结构化数据,所以大数据算法应提高非向量数据挖掘能力。对于非结构化数据挖掘算法研究,涉及频繁项挖掘、分类以及聚类等。例如,文献提出了xrules算法,其为面向半结构化数据的基于规则的分类方法,通过挖掘xml数据中的频繁结构来建立分类规则,以发现文件中隐含的重要信息;xproj算法则通过将数据中特殊频繁子结构出现的频度定义为类间的相似性,将相似性定量化,从而实现xml文档的聚类;potminer通过半序树的并行挖掘实现xml文档的结构信息表达。但是由于非结构化数据以及半结构化数据的结构具有不确定性,其价值的挖掘仍然面临巨大挑战,包括结构化信息的表达,类间相似性函数的构建、相似性函数的使用以及聚类中间结果的表达等
3)分布式大数据挖掘算法早期的数据挖掘研究集中于单任务计算算法的性能提升,而随着现今数据规模的增长以及类型复杂度的提升,尤其是数据源的异构性以及分布式存储的方式,使得大数据的挖掘算法应具有分布式数据挖掘能力。如tpfp-tree和btptree算法通过并行计算实现了电网系统中数据的频繁项挖掘,其均采用了数据库分而治之的思想;carm算法虽没有直接对数据库进行划分,但是其将数据分布于云环境中的各个节点;armh算法采用了基于hadoop分布式框架下不同云服务的可用资源实现大规模数据的频繁项挖掘,其可用于有效的处理增量数据库。文献基于hadoopmapreduce框架实现了并行的ripper(repeatedincrementalpruningforerrorreduction)算法,该算法利用每个节点处理部分数据,然后将不同节点的结果集成为一个分类器。由此可知,以上分布式数据挖掘的实现必须有效的结合大数据的相关技术,如hadoopmapreduce框架以及云服务等,才能更有效地解决分布式数据挖掘问题。
4)可扩展的大数据挖掘算法大数据的高速性以及规模的不断增长,使得大数据挖掘算法应具有可扩展性,即在数据规模扩大的情况下,大数据挖掘算法仍能在有效的时间内快速响应挖掘请求。如文献通过不同的并行策略以及云服务增强了pic算法的可扩展性,实现了大数据的聚类;文献提出了基于mapreduce模型和云计算的序列模式挖掘算法(spamc),将树构建的子任务并行的分配于独立的mappers,并且并行的计算支持度,从而减少了大数据的挖掘时间。
现有的大数据挖掘技术介绍就到这里了,虽然已经有部分大数据挖掘算法成型,但是大数据挖掘依然还有很大一部分发展空间。现在加入大数据行列,零基础也没有关系,只要进行系统的大数据学习,说不定下一个全新算法的首创者就是你!
现有的大数据挖掘技术介绍就到这里了,虽然已经有部分大数据挖掘算法成型,但是大数据挖掘依然还有很大一部分发展空间。现在加入大数据行列,零基础也没有关系,只要进行系统的大数据学习,说不定下一个全新算法的首创者就是你!
上一篇: 浅谈SQL Server事务与锁(上篇)
下一篇: 修改ORACLE数据库密码有效期的方法