AI使った高性能日本語OCRアプリ。
https://github.com/kotaro-kinoshita/yomitoku
CC BY-NC-SA 4.0なので非商用で使えるみたい。
https://creativecommons.org/licenses/by-nc-sa/4.0/
商用で使う場合は商用ライセンスがあるので連絡くださいとのこと。
メインPCにpytorchとか入れたくないのでコンテナを使う。
root、非root、アクセス権で悩みたくないのでdockerではなくpodmanにした。 dockerを入れて、NVIDIA Container Toolkitを入れて、podmanを入れて、GPUを使えるよう設定したら問題なく動いた。
podman用Dockerfile
FROM docker.io/pytorch/pytorch:2.7.1-cuda11.8-cudnn9-runtime
ENV DEBIAN_FRONTEND=noninteractive
ENV PYTHONUNBUFFERED=1
RUN apt-get update && apt-get install -y --no-install-recommends \
libglib2.0-0 \
libgl1 \
libgl1-mesa-glx \
&& rm -rf /var/lib/apt/lists/*
RUN pip install yomitoku
WORKDIR /yomitoku
CMD ["yomitoku", "--help"]
pip installで文句言われるけど無視。 ビルド。
podman build . --tag yomitoku:0.9.4
作業用フォルダに読み込むファイルを置くpdfフォルダとoutputフォルダを作っておいて、run。
podman run -it --device nvidia.com/gpu=all -v $(pwd):/yomitoku --name yomitoku yomitoku:0.9.4 /bin/bash
yomitoku実行。複数ページの画像PDFがあっという間にMarkdownになる。htmlにしたかったらhtmlの指定をすればいい。
yomitoku -f md -o ./output --ignore_line_break --combine ./pdf
某県の第三者委員会の報告書が画像PDFなので、それをOCRかけてテキスト化したかったので使ってみた。 メインPCのGPUはRTX4070SUPERでメモリは12Gだけど普通に動いた。CPU単体でも動くかも。