大数据项目求助
程序员文章站
2022-07-06 10:50:13
...
最近在搞一个大数据项目的比赛
求助学习资料
比赛内容如下
任务一:平台运维(15分)
当前,平台组已完成了数据分析集群环境的初步部署,集群采用完全分布式部署,包括1台master、2台slave,已完成HDFS、Hive、Yarn、Zookeeper四个基础组件的部署工作,数据分析集群可正常运行,要求你们小组完成数据采集组件Flume的部署及配置,确保安装后的组件能够正常运行。
- 在slave1主机安装数据采集组件Flume并启动,通过命令查看进程,确认Flume进程已启动,确定Flume命令是当前系统的合法命令。
- 配置Flume Agent,按照以下要求进行参数设置:
(1)设置Flume监听5555网络端口;
(2)将从网络端口接收到的数据落地到hdfs以下目录下:
/raw_data/receive/
(3)文件名称格式以[YYYYMMDD]_为前缀;
(4)每接收10M数据落地一个文件,当接收数据不足10M时,每15分钟落地一个文件。 - 运行Flume配置验证程序(由竞赛平台提供),生成Flume验证程序执行结果文件。
注:本部分仅考核参赛选手大数据平台运维能力,为避免赛题错误传递,本部分完成的Flume配置结果不作为后续任务执行基础,不影响后续任务执行,竞赛平台可为未完成配置的参赛队伍提供可正确运行的平台。
任务二:数据采集与数据预处理(20分)
使用竞赛平台提供的网络爬虫服务器,编写、配置网络爬虫代码,配置数据采集系统接口,完成从提供的数据源中采集数据,提交到竞赛平台。
注:本部分仅考核参赛选手数据采集技能,为避免赛题错误传递,本部分结果数据不作为后续任务输入,不影响后续任务执行,竞赛平台可为未完成采集的参赛队提供文本数据。
由参赛选手分析项目需求,充分考虑后续竞赛任务的延续性及可实施性,自行完成数据源选择、数据采集模式设计、工作步骤及流程设计,完成数据采集工作。
任务三:数据清洗与分析(25分)
使用Java语言编写MapReduce程序对落地到HDFS的原始数据进行清洗(原始数据中已包含职位描述的分词结果),组装成指定的数据格式后将清洗后的数据加载到Hive数据仓库中,使用HQL语句对数据进行聚类分析。 - 编写MapReduce程序,读取并解析落地到HDFS 上/raw/receive目录下的文件数据,清洗职位名称为空、职位描述为空、词列表为空的数据,将清洗后的数据保存在HDFS上/clean/目录下,清洗后的职位数据各字段用|分割。
- 从清洗后的文件将清洗后的数据加载到Hive表中。
- 运行HQL命令,完成以下数据的分析统计:
(1)统计各岗位数据总量
(2)以天为单位统计岗位名称为大数据的数据总量
(3)统计岗位名称为大数据的关键词的数量
注:本部分仅考核参赛选手数据清洗及分析能力,为避免赛题错误传递,本部分数据清洗及分析结果不作为后续任务执行基础,不影响后续任务执行,竞赛平台可为未完成数据清洗及分析的参赛队伍提供数据统计结果。
任务四:数据可视化(20分)
大数据平台已将统计数据推送到数据可视化系统数据库中,且数据可视化页面HTML、CSS已编写完成,后台处理程序脚手架已搭建完成。要求使用Python语言基于Flask开源框架完成数据可视化后台处理逻辑,完成数据访问及组织,基于Jinja2模板引擎完成前端数据处理,向前端ECharts组件传输数据,最终实现数据可视化。 - 基于Flask-SQLAlchemy框架编写数据库映射模型,完成岗位数量统计数据库表结构映射模型、以天为单位的岗位数量统计数据库表结构映射模型、岗位关键词数量统计数据库表结构映射模型。
- 编写可视化后台处理程序,按照三个数据统计图表的数据格式进行数据封装,并将封装后的数据传递到Jinja2模板的自定义变量中。
- 在前端页面中,使用Jinja2模板引擎获取相关统计图表数据并传递给前端页面中相应的EChart组件。
- 运行程序,访问本地可视化网页URL,查看数据可视化Web页面。
任务五:编制分析报告(15分)
根据数据可视化显示内容,分别对职位数量统计结果、大数据岗位数量趋势及大数据岗位技术技能关键词进行分析,对大数据行业市场需求进行判断,提出大数据技术与应用专业培养目标建议(包括人才规模建议及技术技能建议)。
上一篇: JS同步、异步、延迟加载的方法
下一篇: vue自动化表单实例分析