关于TFP.STS的一个Bug(GPU内存爆掉,无法做预测)
程序员文章站
2022-05-21 22:33:25
...
在利用TFP.STS训练模型时,发现GPU内存占用很高,达到98%左右。
训练花费了5627.735171868秒,约94分钟后,发现运行下述代码报错。
temperature_forecast_dist = tfp.sts.forecast(
model=model,
observed_time_series=training_data,
parameter_samples=q_samples_temperature_,
num_steps_forecast=num_forecast_steps)
错误为:
File "<string>", line 3, in raise_from
tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[1,1] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [Op:Unpack]
GPU是爆了,在运行forecast的时候,已没有空间。
想到可以先把model及parameters保存下来,重启一下terminal或许能解决问题。
搜索后,发现类似问题及回复How to save a fitted sts model?,回复的大致意思是目前的版本,还没有这个功能,建议通过numpy中save方法把parameters保存下来;可是model没法保存,是一样不能进行下一步的。
回复是2019年5月29日,这都半年过去了,看来还是没有解决。