vast.ai のホストを立てるのに必要なのでメモ。
Ubuntu自体はServer版をインストールする方が余計なアプリが入らないので安定するっぽい。でも、カーネルが古いのでとりあえずHWEカーネルを入れましょう。
wiki.ubuntu.com
apt update apt upgrade
ssh でリモートログインできるように設定。省略。
以下、sshでリモートログインして作業。
nouveau が有効になっているなら無効化。
lsmod | grep -i nouveau /etc/modprobe.d/blacklist-nouveau.conf blacklist nouveau options nouveau modeset=0 sudo update-initramfs -u sudo systemctl reboot
公式が推奨する方法でcudaのインストール。同時にドライバもインストールされる。現在は CUDA Toolkit 11.0 RC。
developer.nvidia.com
直接マシンにログインしてGUIを使っている場合は
CTRL+ ALT+F1 でコンソールにしてGUIを停止してからインストールする必要があるみたい。
GUI停止は、
sudo service lightdm stop
今風は
sudo systemctl stop lightdm.service
ちなみにこの方法で入れた nvidia-settings は正常に動かないので、必要な場合は18.04LTSのnvidia-settingsを入れる。
vast.aiのインストール。省略。
sudo docker info で警告が出るので、dockerのswapの設定。
unix.stackexchange.com
これでvast.aiでホストとして登録されて問題なく動くはず。
(追記 2020.7.30)
メモリを食うアプリが動いた場合、強制的にkillしてしまうのでswapは積んでおいた方が良いかも。