深度学习机器学习环境搭建安装 Pytorch cuda window10 ubuntu 等

首先安装一个科学上网工具,墙会导致各种问题和速度慢,白白花掉你无数精力,几十块一个月,但是可以帮你在以后的开发中节省数天时间,不要

首先安装一个科学上网工具,墙会导致各种问题和速度慢,白白花掉你无数精力,几十块一个月,但是可以帮你在以后的开发中节省数天时间,不要太划算。但是安装科学上网的工具用百度是搜索不到的,需要用google搜索,死循环?所以只能先找能科学上网的同学了。还有些小渠道,贴吧啥的可能有。

显卡的框架-GPU,驱动,cuda,包,依赖等的关系

整体来讲,可以把GPU的这一套理解成一个新的从硬件到软件的编程体系,对于CPU我们有:cpu硬件,驱动,编程语言,编译器,GPU同样的对应了这一套东西。

驱动:用于控制GPU硬件的东西
cuda:cuda相当于编程语言,类比就是CPU上面的C语言,就是nivida提供的能够进行GPU编程的东西,按照官方的说法是,CUDA是一个并行计算平台和编程模型,能够使得使用GPU进行通用计算变得简单和优雅。用于更加高效的控制显卡,比如并行计算。
cuddnn等: 这个相当于编程语言提供的一个软件包,其实就是一个专门为深度学习计算设计的软件库,里面提供了很多专门的计算函数,如卷积等。有很多其他的软件库和中间件,包括实现c++ STL的thrust、实现gpu版本blas的cublas
CUDA Toolkit:可以理解为IDE,提供了编译器,调试器,分析器等。
注: CUDA ToolKit driver: 注意这个编译器还有一个驱动,和GPU的驱动区分,nvcc&nvidia-smi 就是IDE提供的命令接口,
pytorch的cuda包,pytorch也带有了一个cuda包,相当于和原生cuda的接口??
框架:pytorch,TensorFlow等,就是深度学习的框架了,它们可以使用cuda进而使用GPU

1、anaconda和pip的安装使用

这个anaconda和pip的安装使用也是有很多坑的,要注意下
https://blog.csdn/hn_lgc/article/details/120163720
简单的使用如下

安装anaconda
anaconda里面自带python,不用单独安装了
下载anaconda的安装包,一般下载很慢,基本不能用,需要使用国内的镜像网站才行,目前比较好的是清华的镜像
https://mirrors.tuna.tsinghua.edu/anaconda/archive/
从里面选择合适的anaconda版本,下载,安装
主要anaconda使用的python版本,这个版本要和其它依赖使用的一致
可以选择配置一下anaconda的环境变量,如
G:\Anaconda3;G:\Anaconda3\Scripts;G:\Anaconda3\Library\bin"

2、安装cuda相关

2.1 检测cuda驱动版本

搜索找到或者计算机-右键-属性-设备管理器-显示适配器,将nvdia的驱动更新到最新(我是这样弄的,这样才能对应到开发工具的10.1版本,不知道其他情况下,版本不对应了这样做是否可以)

重启计算机,
直接win10 搜索nvidia,选择NVIDIA Controller
或者控制面板->搜索NVIDIA->双击进入NVIDIA控制面板:
点击帮助->系统信息->组件:
然后看 NVCUDA.DLL 或者 NVCUDA64.DLL 这一行查看驱动版本

2.2 安装cuda toolkit

下载问题

先安装CUDA Toolkit,https://developer.nvidia/cuda-toolkit-archive,
2025年6月11日 最新 他们似乎屏蔽了中国大陆的下载,香港都不行?进去之后只有目录,没有下载链接。
狗日的黄仁勋,吃多了这也要屏蔽?浪费1小时,找半天。

版本问题

nvidia-smi 有个cuda版本,应该是当前电脑(驱动)支持的最高支持的版本,应该是那个意思
必须要选择驱动对应的版本,根据驱动版本选择下载版本,**注意版本号是分了几个数字段,貌似必须要对应的第二个数字段,才能用,比如10.1.1x 和10.1.2x可以配合使用,但是10.0.x和10.1.x就不行了。**自己安装的时候就在这里卡住了,没有注意到版本之间匹配度要求这么高。
很多情况的cuda不能用,torch.cuda.is_available()返回false原因应该就是这个版本没对上


选择好版本之后,点击进去,依次选择对应的系统信息然后下载即可

安装过程问题

文件很大,下载下来之后,按照按照提示安装。
坑! 如果用它推荐的精简版,要求先安装visual studio ,
但是没装他不会提示,直接给你来个你安装失败,坑!

不需要visual studio 的选择自定义,然后展开安装项目,取消visual studio相关的那个选项应该就可以了(没试过)

有驱动更新什么的最好重启一下,然后一些才能生效

设置环境变量

环境变量应该要多设置几个,不然可能出问题
因为其它库的依赖


最后查看是否安装成功,
nvcc --version
pytorch安装 主要依据应是 GPU 驱动程序支持的 CUDA 版本(即 nvidia-smi 显示的版本),而不是 nvcc --version 显示的 CUDA Toolkit 版本

多个版本的cuda可以都留着,不用删掉,改环境变量

2.3 安装cudnn,神经网络加速用

这个应该比较简单,
进入网站 https://developer.nvidia/rdp/cudnn-download 注册用户-下载

这里明明是version,那些人脑子有坑是怎么的,整了个莫名其妙的tarball,查询知道是压缩包的意思

下面11 12 是cuda版本,不知道的还以为windows版本呢

解压之后有3个目录,将它们一起复制放到cuda的安装目录下面即可,不是bin
比如我这次的安装目录C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1

安装这个cuda的工具真费了不少功夫
把下面一步的pytorch安装完之后
最后,测试cuda终于可用了
torch.cuda.is_available()

3、安装pytorch

然后进入pytorch官网,百度搜索即可。
https://pytorch/get-started/locally/
根据支持的cuda版本,Python版本,选择Pytorch环境组合,
第三行表示使用哪种安装工具。
关于cuda版本,不太清楚,现在测试是是驱动版本高于选择版本就行了
以前似乎要版本匹配?
目前pytorch上面只有两个cuda的驱动版本可以选,根据驱动版本选择下载版本,**注意版本号是分了几个数字段,貌似必须要对应的第二个数字段,才能用,比如10.1.xx 和10.1.xx对应才可以配合使用,但是10.0.x和10.1.x就不行了。**自己安装的时候就在这里卡住了,没有注意到版本之间匹配度要求这么高。
很多情况的cuda不能用,torch.cuda.is_available()返回false原因应该就是这个版本没对上

python版本(根据anaconda的来即可)

最后得到下面那行命令

3.1 有梯子安装

直接选择pip,然后复制到命令行,安装就行了。

3.2 没梯子安装

下面演示的用conda,用pip更好
win10里面程序选择到anaconda目录下面,右键anaconda prompt, 管理员身份运行 ,不然可能报错
输入刚才复制的命令,然后得到要安装的和更新的包的目录、

下面会选择yes还是no,输入n,没梯子之类的话不要在线安装,很慢装不了,一种方式是使用镜像安装,目前清华源镜像比较好;
下面的地址可能会变,需要到官方复制 https://mirrors.tuna.tsinghua.edu/help/anaconda/

参考https://mirrors.tuna.tsinghua.edu/help/anaconda/
设置清华源,全局搜索或者打开用户目录下的.condarc 文件,设置如下内容进去
channels:

  • defaults
    show_channel_urls: true
    default_channels:
  • https://mirrors.tuna.tsinghua.edu/anaconda/pkgs/main
  • https://mirrors.tuna.tsinghua.edu/anaconda/pkgs/r
  • https://mirrors.tuna.tsinghua.edu/anaconda/pkgs/msys2
    custom_channels:
    conda-forge: https://mirrors.tuna.tsinghua.edu/anaconda/cloud
    msys2: https://mirrors.tuna.tsinghua.edu/anaconda/cloud
    bioconda: https://mirrors.tuna.tsinghua.edu/anaconda/cloud
    menpo: https://mirrors.tuna.tsinghua.edu/anaconda/cloud
    pytorch: https://mirrors.tuna.tsinghua.edu/anaconda/cloud
    pytorch-lts: https://mirrors.tuna.tsinghua.edu/anaconda/cloud
    simpleitk: https://mirrors.tuna.tsinghua.edu/anaconda/cloud
    然后 运行 conda clean -i 清除索引缓存,保证用的是镜像站提供的索引。

在该命令行界面输入如下命令,最后一行表示显示安装包下载来源的路径。
但是自己设置了貌似没用
还有一种方式,官网说明 https://mirrors.tuna.tsinghua.edu/help/pypi/
pip install -i https://pypi.tuna.tsinghua.edu/simple 包名
或者
pip install --user -i https://pypi.tuna.tsinghua.edu/simple 包名
自己试了一个包能行
还是不行的话手动下载,离线安装

根据要安装的列表,分别到清华源上面找相应的包,注意一定要准确对应,不然可能各种错
清华源里面的搜索貌似没用,所以要自己进入目录找,然后上面的黑框里面实际上提供了包所在的路径

在清华源中anaconda对应目录下面按照该路径找对应的包即可
比较大的包离线安装,如果比较小的,只有几百k,可以在线安装

包下载完成之后,使用
conda install --offline 包路径
即可安装该包

所有包安装完成即可
最后测试是否安装成功

4、下面安装pycharm, 导入设置虚拟环境,conda环境

安装Pycharm通过,教育版或者某宝买破解或者网上找破解方法(网上现在很难有能成功的)

导入anaconda的环境
2025年7月1日 直接导入环境目录下的python.exe即可

file —setting ----project xxx—python interpreter
现在2023年2月18日的界面长这样,和以前不太一样了


然后选择conda的虚拟环境,其它也是环境管理工具,没有什么明显的优劣吧,这里选择conda的。
里面conda.exe注意选择Script下面的conda.exe
这里可以选择已经纯在的环境或者重新创建一个。
重新创建最好手动创建吧,在这里面创建都不知道位置在哪里。

应该是选择第三个好一些,然后点击省略号,进入anaconda的安装目录,里面有个python.exe 文件,选择它就可以了。
第一个是重新建立一个环境。点击第三个选项卡,将路径选为anaconda安装路径下的python.exe,确定后成功配置anaconda环境。

遇到的一些问题:
可以import torch
但是不能import torchvision
或者部分包可以导入部分包不能导入
一开始很懵逼,为什么?后面找了一会儿,使用最开始的命令
conda install pytorch torchvision cudatoolkit=10.1 -c pytorch
发现是torchvision的包安装错了,安装成linux的版本了,所以导入不了

OpenCV安装,自己安装时要在anaconda环境里面安装,否则不行
pip install opencv-python

安装TensorRT

进入官网,要先登录,地址是这个,别用下面文章中的

https://developer.nvidia/tensorrt/download
选择版本
EA 版本代表抢先体验,GA 是稳定版。建议使用GA版本

查看版本关系,网上很多文章写得不清不楚的,官网也是垃圾,找半天

点击具体的版本进入之后,点击 installation guide.

再点击左边的prerequisite (自动翻译挺有用的)
版本号在最右边的最下面,只能选最新版


可以看到支持的cuda版本,还有cudnn

AI解释,学了AI几年,已经可以用AI解释怎么安装AI了,还是英伟达的芯片解释自己的软件怎么装,真是闭环呀。

选择芯片架构和对应软件版本


如果要看老版本支持
要点击在线文档,存档,里面 install guide 下滑找到版本匹配相关

tensorrt 10.x新版本安装设置各种环境变量

装了12.6的cuda,只能装新版的10.8了
教程不多,还是出现了很多问题
把环境变量改设置的都设置上,更多见前面,安装cuda toolkit那里

这两个也设置下
不然可能编译找不到什么的

按照官方教程
其它的按照官方教程,将下载来的trt包 xxx下面的 dll移动到lib
安装trt的python包
官方教程给了好几个安装
前面三个,后面还有三个
实际上只需要一个,在线安装是最新版,不能装,版本不一定匹配,不匹配运行不了
只能安装下载大压缩包里面那个

升级重装

只升级pytorch等

如果底层依赖,cuda等没变,只升级pytorch,复制官网命令,加上-U就行了
注意安装 PyTorch 时 主要依据应是 GPU 驱动程序支持的 CUDA 版本(即 nvidia-smi 显示的版本),而不是 nvcc --version 显示的 CUDA Toolkit 版本。

全部升级

否则,

先和上面过程一样,

首先重装cuda,不用卸载,更改环境变量路径就行
查看CUDA驱动版本,如果升级了,就升级后续一系列的包
你的CUDA版本不是你装过什么,而是你的路径中包含什么

其它问题

nvcc --version和nvidia-smi显示的CUDA版本
CUDA有两个主要的API:runtime(运行时) API和driver API。这两个API都有对应的CUDA版本(如9.2和10.0等)。
用于支持driver API的必要文件(如libcuda.so)是由GPU driver installer安装的。nvidia-smi就属于这一类API。
用于支持runtime API的必要文件(如libcudart.so以及nvcc)是由CUDA Toolkit installer安装的。(CUDA Toolkit Installer有时可能会集成了GPU driver Installer)。nvcc是与CUDA Toolkit一起安装的CUDA compiler-driver tool,它只知道它自身构建时的CUDA runtime版本。它不知道安装了什么版本的GPU driver,甚至不知道是否安装了GPU driver。
意思是nvidia-smi是最底层的语言,nvcc --version由编译器稍微封装之后的语言咯。

cuda安装过程中的问题可以看这里 的2.9
https://docs.nvidia/cuda/cuda-installation-guide-linux/index.html

ncnn编译安装 win10+vs2022

参考
https://blog.csdn/qq_40231159/article/details/111808792
https://blog.csdn/qq_39056987/article/details/122937169
问题:
vs 2019 启动进入项目界面就闪退,使用installer 修复没用
彻底卸载 使用官网彻底卸载教程 + 搜索vs相关文件删除
重装2022 可以了
一遍过啊,比unbuntu上容易多了,搜索linux更方便的???

3、生成ncnn模型
将retinaface-sim.onnx模型复制粘贴到ncnn-root-dir\build\tools\onnx文件夹下面,使用如下指令即可转换成ncnn模型:

.\onnx2ncnn retinaface-sim.onnx retinaface.param retinaface.bin

ubuntu上面的安装

一、安装nivida驱动

一开始尝试了Debian,太难搞了,各种配置,网上教程又很少,搞了一天,最后还是安装不了驱动,只能放弃了
ubuntu最新版(20.x以上),直接软件和更新,附加驱动,选择推荐的第一个,一般就能安装成功了,简直好太多了

二、安装cuda相关包

去nvidia官网,下载cuda相关包
注意NVIDIA的网站有问题,国内能访问,但是访问很慢,代理也不能代理,需要设置为全局代理才行

2.1 下载安装cudatoolkit

https://developer.nvidia/cuda-downloads
按照自己的系统选择即可
要注意的是这里是系统层面的cudatoolkit安装,据说conda里面也会安装一个,conda里面的是子集,涉及到pytorch相关的

同样的去官网下载好安装包

注意这个安装命令有问题,需要sh XX.linux.run --librarypath=/usr/local/cuda 才行,上面给出的命名没有反应

2.2 安装

sh cuda_10.0.130_410.48_linux.run --toolkitpath=xxx
如果安装多个,给出路径
注意安装不要多次点击回车,那样会点击到后面的选项,导致无法安装
安装的时候会给出选项
如果已经安装了显卡驱动,就会出现这个选项,选择continue ,然后后面的选项,显卡驱动就不选择了

2.3 设置环境变量并更新

sudo gedit ~/.bashrc
后面加上
export PATH=/usr/local/cuda-11.3/binKaTeX parse error: Expected '}', got 'EOF' at end of input: {PATH:+:{PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64KaTeX parse error: Expected '}', got 'EOF' at end of input: …LIBRARY_PATH:+:{LD_LIBRARY_PATH}}
保存 然后
source ~/.bashrc
如果想要多个cuda版本生效,可以通过修改路径达到目的。

2.4 下载是cudann

https://developer.nvidia/rdp/cudnn-download
注册账号下载
垃圾网站,速度其慢,登录有问题
跳转到它的首页,可以使用快捷登录,cudnn的登录页面不能修改密码
intel 64位 选择如下

2.5 解压,然后复制到cuda安装对应目录中

最后测试是否成功

三、安装Pytorch框架和其它依赖

到pytorch官网选择查看要安装的版本
然后可以设置源进行在线安装,或者直接下载安装包进行安装
安装 PyTorch 时 主要依据应是 GPU 驱动程序支持的 CUDA 版本(即 nvidia-smi 显示的版本),而不是 nvcc --version 显示的 CUDA Toolkit 版本。

安装onnx,也有不少的坑

目前的有效方法 2025年7月11日

pip install onnxruntime-gpu==比最新低两个版本

2025年7月18日
pip install onnxruntime-gpu==1.20.0
版本官网
https://pypi/project/onnxruntime-gpu/

这个博主讲得很详细
https://wwwblogs/io-T-T/p/18304208

官方安装说明地址
https://onnxruntime.ai/docs/install/#python-installs

查看gpu驱动等版本和onnx对应关系

包含cudnn和trt的对应关系
https://onnxruntime.ai/docs/execution-providers/CUDA-ExecutionProvider.html#requirements

https://onnxruntime.ai/docs/execution-providers/CUDA-ExecutionProvider.html#cuda-12x

有cpu和gpu版本,
gpu需要加上gpu

2025年6月11日 踩坑 网上没提到的

按照官方文档 各种配置都是对上的,但是安装最新的高版本就不行
可能是这个垃圾官方没更新文档 换个低版本的可以了
那么多开源库 这玩意是最垃圾的一类了

如果你安装了GPU版本,就要手动卸载cpu版本,不然也会报错xxx找不到啥的

验证
import onnxruntime
print(onnxruntime.version)
print(onnxruntime.get_device() ) # 如果得到的输出结果是GPU,所以按理说是找到了GPU的

ort_session = onnxruntime.InferenceSession(“your_onnx_module_path.onnx”,
providers=[‘CUDAExecutionProvider’])
print(ort_session.get_providers())

一些问题处理

flash-atten安装
https://github/Dao-AILab/flash-attention/releases

发布者:admin,转转请注明出处:http://www.yc00.com/web/1753951150a5102099.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信