ザキンコのブログ

ザキンコの日記のはてなブログ版です。

YomiTokuをpodmanで動かすメモ

AI使った高性能日本語OCRアプリ。

https://github.com/kotaro-kinoshita/yomitoku

CC BY-NC-SA 4.0なので非商用で使えるみたい。

https://creativecommons.org/licenses/by-nc-sa/4.0/

商用で使う場合は商用ライセンスがあるので連絡くださいとのこと。

メインPCにpytorchとか入れたくないのでコンテナを使う。

root、非root、アクセス権で悩みたくないのでdockerではなくpodmanにした。 dockerを入れて、NVIDIA Container Toolkitを入れて、podmanを入れて、GPUを使えるよう設定したら問題なく動いた。

podman用Dockerfile

FROM docker.io/pytorch/pytorch:2.7.1-cuda11.8-cudnn9-runtime

ENV DEBIAN_FRONTEND=noninteractive
ENV PYTHONUNBUFFERED=1

RUN apt-get update && apt-get install -y --no-install-recommends \
    libglib2.0-0 \
    libgl1 \
    libgl1-mesa-glx \
    && rm -rf /var/lib/apt/lists/*

RUN pip install yomitoku

WORKDIR /yomitoku

CMD ["yomitoku", "--help"]

pip installで文句言われるけど無視。 ビルド。

podman build . --tag yomitoku:0.9.4

作業用フォルダに読み込むファイルを置くpdfフォルダとoutputフォルダを作っておいて、run。

podman run -it --device nvidia.com/gpu=all -v $(pwd):/yomitoku --name yomitoku yomitoku:0.9.4 /bin/bash

yomitoku実行。複数ページの画像PDFがあっという間にMarkdownになる。htmlにしたかったらhtmlの指定をすればいい。

yomitoku -f md -o ./output --ignore_line_break --combine ./pdf

某県の第三者委員会の報告書が画像PDFなので、それをOCRかけてテキスト化したかったので使ってみた。 メインPCのGPUはRTX4070SUPERでメモリは12Gだけど普通に動いた。CPU単体でも動くかも。