github.com 商用レベルの文字起こしが無料でできるので助かる。以前はRimo Voiceを使ってたけど、遜色ない感じ。 rimo.app
メインの環境に入れるのは嫌だったのでDockerを使った。 雑なDockerfileを用意してビルド。
FROM pytorch/pytorch:latest RUN apt-get update && apt-get install -y --no-install-recommends git \ && apt-get clean \ && rm -rf /var/lib/apt/lists/* RUN pip install git+https://github.com/openai/whisper.git
docker build -t zakinco/whisper:0.1 .
run。
docker run --gpus all -it --rm --name my-whisper -v "$PWD":/usr/src/myapp -w /usr/src/myapp zakinco/whisper:0.1 /bin/bash
whisper実行。
whisper test.m4v --language Japanese --model medium
順に文字起こしがされていく。テキストファイルを作ってくれるのでしばらく放置。 RTX 3060Tiだとmediumで行けました。 あと遅いけどCPUのみでも動くっぽいです。
(追記 2022.10.12)
RTX 3080がメモリ10GBなのでlargeが動くかなあと思って試してみたら、見事に「CUDA out of memory」で動きませんでした。高かったのに。。。しょんぼり。
(追記 2022.12.24)
あまりに雑すぎたので更新。RTX A2000 12GBでlarge動きました。