欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

关于TFP.STS的一个Bug(GPU内存爆掉,无法做预测)

程序员文章站 2022-05-21 22:33:25
...

在利用TFP.STS训练模型时,发现GPU内存占用很高,达到98%左右。
训练花费了5627.735171868秒,约94分钟后,发现运行下述代码报错。

temperature_forecast_dist = tfp.sts.forecast(
    model=model,
    observed_time_series=training_data,
    parameter_samples=q_samples_temperature_,
    num_steps_forecast=num_forecast_steps)

错误为:

File "<string>", line 3, in raise_from
tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[1,1] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [Op:Unpack]

GPU是爆了,在运行forecast的时候,已没有空间。
关于TFP.STS的一个Bug(GPU内存爆掉,无法做预测)
想到可以先把model及parameters保存下来,重启一下terminal或许能解决问题。
搜索后,发现类似问题及回复How to save a fitted sts model?,回复的大致意思是目前的版本,还没有这个功能,建议通过numpy中save方法把parameters保存下来;可是model没法保存,是一样不能进行下一步的。

回复是2019年5月29日,这都半年过去了,看来还是没有解决。

相关标签: machine learning