做实验过程中的流水账
程序员文章站
2024-02-27 23:51:45
...
显存问题
unable to create StreamExecutor for CUDA:0: failed initializing StreamExecutor for CUDA device ordinal 0: Internal: failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_OUT_OF_MEMORY: out of memory; total memory reported: 34058272768
这个问题是显存占用过多,就算是已经停掉的历史任务也会影响。所以需要及时清理。
应对方式: 先用ps -ef看进程,再用sudo kill -9 pid
XLA
利用XLA进行加速计算,需要注意batch_size的设定,当batch_size比较大的时候有一些ops需要加载的内存较多,所以会出现OOM的问题。
lookup的效率疑惑
在历史序列中item进行lookup的matrix如果是仅仅用id的矩阵会比用进行了mlp的矩阵快很多倍,这中间的原因暂时还未探究。