我试图让张量流与 CUDA 10.1 一起使用,但每次我尝试安装任何驱动程序(任何版本)时,它只会继续安装 CUDA 11(与张量流不兼容)。我已经尝试过驱动程序和 CUDA 的 .deb 安装。我也尝试安装最新的驱动程序,然后通过本地.run文件安装CUDA 10.1并告诉CUDA不要安装驱动程序。这确实在我的 /usr/local 文件夹中安装了 cuda 10.1,但是当我尝试时nvidia-smi它每次都指定 CUDA 11。我做了大量的研究,发现 提到的版本nvidia-smi指定了最新支持的 cuda 运行时,但不一定反映实际安装的 CUDA 库?所以我应该安装了cuda 10.1(在/usr/local下)并尝试在tensorflow上运行测试命令: tf.config.list_physical_devices('GPU')但这给出了一个错误:2020-09-30 17:36:38.765577: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'libcudart.so.10.1'; dlerror: libcudart.so.10.1: cannot open shared object file: No such file or directory2020-09-30 17:36:38.765604: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine./home/robbe/Desktop/usiigaci-optimized/venv/lib/python3.7/site-packages/pandas/compat/__init__.py:120: UserWarning: Could not import the lzma module. Your installed Python is incomplete. Attempting to use lzma compression will result in a RuntimeError. warnings.warn(msg)很明显,它无法找到正确的 cuda 10.1 对象库,尽管它确实存在于 /usr/local/cuda-10.1 下。/usr/bin 下还有可执行文件(包括显示 cuda 11 的 nvidia-smi),我认为这些文件会覆盖 /usr/local 下的 10.1 目录?我尝试过的事情:安装 NVIDIA 驱动并安装 CUDA 和驱动。执行此操作时,CUDA 实际上安装了 NVIDIA 驱动程序 418,并给出了一个关于无法卸载的内核模块的模糊异常。通过 grub rescue 手动安装驱动程序(因为第一步出现异常),然后安装 CUDA 10.1(本地 .run & 不包括 nvidia 驱动程序)。所以nvidia驱动和cuda完全分开安装。通过 GUI 安装最新的 NVIDIA 驱动程序:软件 -> 附加驱动程序有效的事情:使用本地 .run 安装 CUDA 并告诉它不要包含驱动程序。这会在 /usr/local 下成功安装 cuda 10.1,但无法被 tensorflow或 nvidia-smi命令识别。我束手无策,我得出的结论是,tensorflow 和 CUDA 很难使用,尽管如此,我需要它才能工作,有人可以帮忙吗?
1 回答
HUWWW
TA贡献1874条经验 获得超12个赞
所以我找到了解决方案。
这确实是一个设置正确的环境变量的问题。Tensorflow 查找 cuda-10.1/include 和 cuda-10.1/lib64 下存在的特定对象文件,因此我只是将这些路径作为 LD_LIBRARY_PATH 添加到 ~/.bashrc 中的环境中,如下所示:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/include export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
添加回答
举报
0/150
提交
取消