欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

探索 Apple 公司股价数据-Python实现

程序员文章站 2024-03-21 11:27:22
...

探索 Apple 公司股价数据


这个例子比较适合数据挖掘入门一段时间。都还是比较基础的一些函数的应用。

环境和数据

这里使用的是pycharm2020.1.1 x64的
一般都是用的是Python 3.7.3
一些包就自己看着下
处理的数据 -appl_1980_2014.csv,如下图
探索 Apple 公司股价数据-Python实现

题目

(1) 读取数据并存为一个名叫 apple 的数据框。

(2) 查看每一列的数据类型。

(3)将 Date 这个列转换为 datetime 类型。

(4)将 Date 设置为索引。

(5)有重复的日期吗?

(6)将 index 设置为升序。

(7)找到每个月的最后一个交易日(businessday)。

(8)数据集中最早的日期和最晚的日期相差多少天?

(9)在数据中一共有多少个月?

(10)按照时间顺序可视化 Adj Close 值。

代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt

# 1. 读取数据并存为一个名叫 apple 的数据框。
apple = pd.read_csv(./data/appl_1980_2014.csv')

#(2)查看每一列的数据类型。
print(apple.dtypes)

#(3)将 Date 这个列转换为 datetime 类型。
apple.Date=pd.to_datetime(apple['Date'])
print(apple.Date)

#(4)将 Date 设置为索引。
apple=apple.set_index('Date')
print(apple)

#(5)有重复的日期吗?
print(apple.index.is_unique)

#(6)将 index 设置为升序。
print(apple.sort_index())

#(7)找到每个月的最后一个交易日(businessday)。
apple_month = apple.resample('BM').mean()
print(apple_month.head())

#(8)数据集中最早的日期和最晚的日期相差多少天?
print(apple.index.max())
print(apple.index.min())
print((apple.index.max()-apple.index.min()).days)

#(9)在数据中一共有多少个月?
a2=apple.resample('M').count()
print('数据中一共有多少个',len(a2.index),'月')

#(10)按照时间顺序可视化 Adj Close 值。
p = apple['Adj Close'].plot(title = 'Apple Stock').get_figure().set_size_inches(7,6)
plt.show()

详解

1、
探索 Apple 公司股价数据-Python实现
探索 Apple 公司股价数据-Python实现

2、
探索 Apple 公司股价数据-Python实现

3、
describe() 函数可以查看数据的基本情况,包括:count 非空值数、mean 平均值、std 标准差、max 最大值、min 最小值、(25%、50%、75%)分位数等。

4、
iloc主要使用数字来索引数据,不能使用字符型的标签来索引数据。

loc只能使用字符型标签来索引数据,不能使用数字来索引数据。特殊情况:当dataframe的行标签或列标签为数字时,loc就可以来索引

ix如果索引是整数类型,则ix将仅使用基于标签的索引,而不会回退到基于位置的索引。如果标签不在索引中,则会引发错误。

5、
设置索引(set_index)
keys:列标签或列标签/数组列表,需要设置为索引的列
drop:默认为True,删除用作新索引的列
append:是否将列附加到现有索引,默认为False。
inplace:输入布尔值,表示当前操作是否对原数据生效,默认为False。verify_integrity:检查新索引的副本。否则,请将检查推迟到必要时进行。将其设置为false将提高该方法的性能,默认为false。

6、
探索 Apple 公司股价数据-Python实现
7、
探索 Apple 公司股价数据-Python实现
8、
BM 全称 Bussiness Month,是商业月的意思,在 Pandas 中称为 DataOffset,除了月之外,还提供年、日、秒、小时、分…等作为采样单位,当然也可以自定义 DataOffset。

对于数据挖掘,都是学习的一个阶段,一起加油

制作人:只识闲人不识君
日期:2020.10.19

相关标签: python 大数据