Python构建ANN模型预测气温变化
在利用爬虫模型得到了气温数据集后,具体参考上篇Python构建爬虫模型爬取天气数据,我们开始利用tensorflow自带的模块搭建一个简单的ANN模型预测气温变化,其实这个模型适用于预测很多数据变化趋势,这里以预测气温变化为例。
import requests
from bs4 import BeautifulSoup
def get_data(city_name,tim):
url="http://www.tianqihoubao.com/lishi/"+city_name+"/month/"+tim+".html"
re=requests.get(url)
html = re.content.decode('gbk')#规范编码,避免乱码
soup = BeautifulSoup(html,'html.parser')
data=soup.find_all('tr')
for i in range(1,len(data)):#因为data[0]没有气温数据
temp=data[i].text.split()
temp1=temp[3][:-1]
temp2=temp[5][:-1]
res=0
if temp1=='' and temp2=='':#后来爬数据发现有某天的气温不存在
continue
elif temp1=='':
res=int(temp2)
elif temp2=='':
res=int(temp1)
else:
res=(int(temp1)+int(temp2))/2.0#取平均值
#print(tim,temp1,temp2)
fp.writelines(str(res)+'\n')
fp=open('data.txt','w',encoding='utf-8')
city_name="shanghai"
for year in range(2015,2020):#时间从2015年到2019年
for month in range(1,13):#时间从1月到12月
tim=str(year)
if month<10:
tim+=("0"+str(month))
else:
tim+=str(month)
get_data(city_name,tim)#获取数据
fp.close()
运行上面的代码得到上海从2015年到2019年的完整气温数据,文件名叫data.txt,如下:
然后我们展开,这里很简单,我们以7个(也可以是其他个)气温为单位进行数据预测,也就是把前7个气温作为特征值,第8个为结果,也就是
x=[temp[i],temp[i+1],temp[i+2],temp[i+3],temp[i+4],temp[i+5],temp[i+6]]
y=[temp[i+7]]
以此得到我们模型的训练数据集。
一、读取数据
利用pandas读取数据
import pandas as pd
import numpy as np
def read_data(N):
df=pd.read_csv('data.txt',header=None)#没有列名,为None
data=df.values#提取数据内容
X=[]
Y=[]
for i in range(N,len(data)):
s=[]
for j in range(i-N,i):
s.append(data[j][0])
X.append(s)
Y.append(data[i][0])
return np.array(X),np.array(Y)
N=7#特征数目
X,Y=read_data(N)
print(X)
print(Y)
显示内容如下:
于是我们得到了模型的训练数据集。
二、数据归一化
这里直接利用sklearn框架里面的MinMaxScaler模块进行数据归一化,比较方便,不用自己手写归一化函数了。
from sklearn.preprocessing import MinMaxScaler
'''
读取数据
'''
min_max_scaler = MinMaxScaler()
min_max_scaler.fit(X)
x = min_max_scaler.transform(X)#均值化处理
x_ = min_max_scaler.transform([[24.5,25.0,24.0,25.0,21.0,20.5,21.0]])#这里随便取一组数据,作为后面预测用,注意数据维度
y=Y
显示x和y的内容如下,print(x),print(y):
特征数据得到了很好的归一化。
三、训练集和测试集的划分
这里同样调用sklearn框架里面的train_test_split模块进行数据集划分
from sklearn.model_selection import train_test_split
'''
数据读取+均值化处理
'''
#划分数据集,按训练集:测试集=8:2比例划分
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.2)
四、构建ANN模型
ANN模型为人工神经网络模型,共三层结构,输入层,隐含层,输出层,我们需要对中间的隐含层的参数(主要为隐含层中的神经元层数和每层的神经元个数进行调整),手工搭建模型比较麻烦,但是tensorflow框架里面提供了现成的模型框架,我们只需要对隐含层参数进行修改即可。
from tensorflow import keras#这里可能很多人报错没有keras模块,我直接在阿里云天池平台跑的数据,本地电脑的python需要调整下tensorflow版本等问题
'''
数据的读取+均值化+划分
'''
#模型结构,采用relu函数为**函数,输入层为N个属性
#下面为4层隐含层,每层的神经元个数依次为500,500,250,250
#输入层对应N个属性
model = keras.Sequential([
keras.layers.Dense(500,activation='relu',input_shape=[N]),
keras.layers.Dense(500,activation='relu'),
keras.layers.Dense(250,activation='relu'),
keras.layers.Dense(250,activation='relu'),
keras.layers.Dense(1)])#最后输出为一个结果,也就是预测的值
#定义损失函数loss,采用的优化器optimizer为Adam
model.compile(loss='mean_absolute_error',optimizer='Adam')
#开始训练模型
model.fit(x_train,y_train,batch_size = 126,epochs=1000)#训练1000个批次,每个批次数据量为126
至此,利用现成的模块构建一个简单的ANN模型完成。
五、模型的预测
#输出结果预测
y_=model.predict(x_)
print('预测结果为:',y_)
六、完整代码
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from tensorflow import keras#这里可能很多人报错没有keras模块,我直接在阿里云天池平台跑的数据,本地电脑的python需要调整下tensorflow版本等问题
def read_data(N):
df=pd.read_csv('data.txt',header=None)#没有列名,为None
data=df.values#提取数据内容
X=[]
Y=[]
for i in range(N,len(data)):
s=[]
for j in range(i-N,i):
s.append(data[j][0])
X.append(s)
Y.append(data[i][0])
return np.array(X),np.array(Y)
N=7#特征数目
X,Y=read_data(N)
#数据均值化
min_max_scaler = MinMaxScaler()
min_max_scaler.fit(X)
x = min_max_scaler.transform(X)#均值化处理
x_ = min_max_scaler.transform([[24.5,25.0,24.0,25.0,21.0,20.5,21.0]])#这里随便取一组数据,作为后面预测用,注意数据维度
y=Y
#划分数据集,按训练集:测试集=8:2比例划分
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.2)
#模型结构,采用relu函数为**函数,输入层为N个属性
#下面为4层隐含层,每层的神经元个数依次为500,500,250,250
#输入层对应N个属性
model = keras.Sequential([
keras.layers.Dense(500,activation='relu',input_shape=[N]),
keras.layers.Dense(500,activation='relu'),
keras.layers.Dense(250,activation='relu'),
keras.layers.Dense(250,activation='relu'),
keras.layers.Dense(1)])#最后输出为一个结果,也就是预测的值
#定义损失函数loss,采用的优化器optimizer为Adam
model.compile(loss='mean_absolute_error',optimizer='Adam')
#开始训练模型
model.fit(x_train,y_train,batch_size = 126,epochs=1000)#训练1000个批次,每个批次数据量为126
#输出结果预测
y_=model.predict(x_)
print('预测结果为:',y_)
运行情况:
最后误差停留在1.0左右,预测结果为21.177862。
希望我的分享对你的学习有所帮助,如果有错误请及时指出,谢谢~
下一篇: 老生常谈PHP 文件写入和读取(必看篇)