OpenAIのWhisperが凄い - ザキンコのブログ

github.com 商用レベルの文字起こしが無料でできるので助かる。以前はRimo Voiceを使ってたけど、遜色ない感じ。 rimo.app

メインの環境に入れるのは嫌だったのでDockerを使った。雑なDockerfileを用意してビルド。

FROM pytorch/pytorch:latest
RUN apt-get update && apt-get install -y --no-install-recommends git \
    && apt-get clean \
    && rm -rf /var/lib/apt/lists/*
RUN pip install git+https://github.com/openai/whisper.git

docker build -t zakinco/whisper:0.1 .

run。

docker run --gpus all -it --rm --name my-whisper -v "$PWD":/usr/src/myapp -w /usr/src/myapp zakinco/whisper:0.1 /bin/bash

whisper実行。

whisper test.m4v --language Japanese --model medium

順に文字起こしがされていく。テキストファイルを作ってくれるのでしばらく放置。 RTX 3060Tiだとmediumで行けました。あと遅いけどCPUのみでも動くっぽいです。

(追記 2022.10.12)

RTX 3080がメモリ10GBなのでlargeが動くかなあと思って試してみたら、見事に「CUDA out of memory」で動きませんでした。高かったのに。。。しょんぼり。

(追記 2022.12.24)

あまりに雑すぎたので更新。RTX A2000 12GBでlarge動きました。

zakinco.hatenablog.com