2020中国高校计算机大赛·华为云大数据挑战赛热身赛--EDA
程序员文章站
2022-05-22 10:18:56
...
慢慢看,慢慢写~
顺便求求大佬带
数据集格式
数据集存放格式
读数据的时候根据日期,路口,方向的不同有不同的文件,数据集涉及4周(2019.1.12 – 2019.2.8)28天的数据;其中01-14日缺失wuhe_zhangheng路口四个方向的信息,其他的日期都完整包括6个路口的信息。
# 4周(2019.1.12 – 2019.2.8)28天的数据
| -- 01-12
# 按照路口,方向分文件保存
| -- chongzhi_beier-east-01-13.csv, #chongzhi_beier四个方向四个数据文件
| -- chongzhi_beier-north-01-13.csv
| -- chongzhi_beier-south-01-13.csv
| -- chongzhi_beier-west-01-13.csv
.
.
.
| -- wuhe_zhangheng-west-01-13.csv
.
.
.
| -- 02-08
| -- chongzhi_beier-east-02-08.csv
.
.
.
涉及路口
很奇怪,文件夹里面有chongzhi_beier 的信息,猜测应该是 “冲之大道-贝尔路” 路口,但是官方并没有提到这个路口 ╮(╯▽╰)╭
涉及到的6个路口如图所示(图片“上”方向即为“正北”),其中左上角的 wuhe_zhangheng 路口就是最终要预测的路口
缺失值分析
- 基本上每个路口都存在缺失值(缺失值都在1月,2月就没有了)
- 最长的一个缺失值达到了两天半
可视化分析(wuhe_zhangheng-straightFlow)
所有数据的可视化分析
- 很明显的周期性了(以天为周期)
- 2月4日后车流量就变小了,查了下2月5日春节(233333 华为的放假日期get!)
- 预测的日期是(2019年2月11日,正月初七)和周四(2019年2月14日,正月初十)。
- 2019年春节期间节假日安排:
春节:2月4日至10日放假调休,共7天。2月2日(星期六)、2月3日(星期日)上班。
所有数据的可视化分析
- 异常值、离群值的处理