Dockerコンテナを立ち上げてでGPUが使えてたのに,しばらくするといつの間にかGPUが使えなくなる(Failed to initialize NVML: Unknown Errorになる,torch.cuda.is_available()がfalseになる)という現象に1ヶ月以上困っていたのですが,その解決方法が見つかったので書いておきます. 症状 Ubuntu22.04LTS docker 各種GPU 長らくUbuntu20.04LTSを使ってたのですが,22.04にアップグレードしました.それ以前はなんの問題もなく使っていたのに,アップグレード後は上記問題が発生しました. 毎回発生する訳ではない.1週間ぐらい問題ないときもあれば,1日に複数回発生するときもある.およそ2−3日に1回程度は発生するが運次第. マシン依存ではない.複数台のサーバでGPUも構成もバラバラなのに,発生する.