大数据 - Teradata学习体会
随着计算机系统在处理能力、存储能力等方面,特别是计算机软件技术的不断提高,使得信息处理技术得到飞速发展。
数据处理主要分为两大类:联机事物处理oltp、联机分析处理olap。oltp也就是传统的关系型数据库应用,主要功能是基本的、日常的事务处理操作,对响应时间要求非常高,是一种面向应用的生产系统。olap是基于数据仓库的面向主题的信息分析处理过程。
什么是数据仓库
与传统关系型数据库不同的是,数据仓库储存的是历史数据,针对数据仓库系统的查询大都非常复杂,特别消耗系统资源,对系统的可扩展能力和并行处理能力要求很高。数据仓库主要面向业务人员和管理人员,用来帮助企业管理人员作出更符合业务发展规律的决策,所以也称数据仓库为决策支持系统。数据仓库的数据来自多个数据库,并且按照预先定义好的模型对抽取的数据进行转换过滤,再将结果存放到数据仓库中。
teradata 数据库
为了解决传统数据库在大量数据的查询分析等方面的局限性,teradata公司推出了teradata关系数据库管理系统。teradata采用标准的sql查询语言,适用于处理复杂查询数据仓库应用。
架构
teradata的主要组件是解析引擎、bynet和访问模块处理器(amp)。
解析引擎负责从客户端接收查询命令并制定执行计划。
bynet相当于网络层,它从解析引擎接收执行计划并发送给相应的amp,amp的选择采用哈希算法实现。
数据表中的记录均匀分布在个amp之间,每个amp与存储数据的一组磁盘相关联。从bynet接收数据和执行计划后,进行类型转换、聚合、过滤和排序等操作并将数据存储到与其关联的磁盘中。
操作
使用teradata提供的免费teradata数据库开发人员版本可以进行开发测试,通过teradata sql assistant或bteq等数据库管理工具可以对数据仓库进行操作,默认用户为dbc,sql语法和其它数据库区别不大,但其独特的内部结构适合需要处理复杂数据查询的应用。
sql 语法
teradata使用了标准的sql语法并在此基础上进行了扩展,以增强数据库管理系统的功能。所有的系统对象如table、view、macro等存储在数据字典中,数据字典的所有者为dbc用户,在客户端可以调用数据字典中的对象访问数据库。刚开始使用teradata时可以使用其帮助系统提供的命令help、show、explain查看数据库中各种对象的结构以及sql请求的执行过程,对理解teradata工作原理以及各种sql语句的使用有很大帮助。
体会
在如今快速发展的大数据革命时代,数据积累量越来越多,其中蕴含着大量重要的信息,通过对这些数据进行分析和综合处理,可以发掘出对企业发展、*管理部门至关重要的业务信息,帮助管理人员作出合理的决策。
当然,传统的关系型数据库也是可以完成基本的事务处理和数据分析操作的,但是当数据量非常庞大时,数据库就显得无能为力了。比如,一个早期的电商平台,只需一个网站、几台服务器、一个mysql就可以运营了,当客户增多、数据量增大时,只需采用多台服务器、多个数据库的方式就可以勉强应付,但是随着数据量的不断增长,数据之间的关系也越来越复杂,管理人员此时关心的不是“昨天营业额是多少”这类问题,而是“哪些用户是高价值用户”、“某商品的销售量与哪些因素有关”等,这时就需要建立数据仓库了,teradata数据仓库是专门针对决策支持系统的特点而开发的关系数据库管理系统,相对于其它商业数据库,teradata更适合需要处理大数据量及数据分析的应用,可以极大提高应用的性能。
数据库可以存储和处理数据,而数据仓库的职责则是发掘数据的价值,最大程度地利用数据
推荐一个大数据学习群 142974151每天晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,