自炊した中学受験向け理科参考書をyomitoku OCRでTurso蔵書DBに取り込み、理科学習ページを4トピック増やした

自炊した理科参考書を蔵書DBに取り込み、理科学習ページを4トピック増やした

「これ、まだ取り込んでないんでしたっけ？」から始まった

自炊済みの中学受験向け理科参考書のPDFが手元にあって、蔵書DB（Turso の book-knowledge-base）に入れた気がしていたが、思い出せなかった。Claude Code に books テーブルを調べさせたら、書名の一部で検索してヒットしたのは別の1冊だけ。未取り込みだと確定した。

この参考書は理科の頻出論点を100トピックにまとめた構成で、開発中の理科学習ページ（/science/ 配下）の categories.ts は、最初からこの100トピックの枠組みに対応させて設計してあった。既に6トピック実装済み。素材のDBが空のままでは先に進めないので、「取り込みからリストラクチャーまで」を一気にやらせることにした。

Phase 0: yomitoku OCR → Markdown → トピック単位に統合

313ページのスキャンPDFを yomitoku（日本語特化のAI OCR）にかけた。GPUで1ページ約1.5秒、10〜15分ほどで Markdown 313ページ分と図1,565枚が出力された。

DB格納は1回こけた。scratchpad に置いたスクリプトを絶対パスで実行したせいで src/db.py が見つからなかった、という import パスの問題で、sys.path に src を追加させて再実行したら通った。

リストラクチャーは、ページ単位の263チャンクを目次に基づいてトピック単位のセクションに統合する処理。「263チャンクすべてがセクション定義に過不足なく含まれるか」の完全性検証をゲートにして、NGなら中断する設計にした。

作業はセッションをまたいだ。次のセッションに貼った引き継ぎプロンプトは一部が文字化けしていたが、記憶やプロンプトの文面ではなく、ディスク上の実態（OCR出力の有無・DBの格納状態）を確認させてから続きに入った。その上で照合ゲートを流したら一発合格。書籍のメタデータ紐付けまで含めて Phase 0 が完了した。

途中で全文検索の仕様にひとつ引っかかった。この蔵書DBのFTSは trigram tokenizer なので、日本語は3文字以上でないと検索が効かない。「さび」は2文字なのでFTSでは拾えず、LIKE に切り替えた。すると今度は解答編のチャンクまで LIKE に引っかかってきたので、解答編を除外する条件を足した。

公開コンテンツにするための線引き

学習ページは公開する予定なので、計画段階で著作権の扱いを詰めた。Codex にレビューさせたら計3巡で5指摘が出て、「事実チェックのルールと著作権ルールが矛盾している」という指摘はもっともだったので計画書を直した。

方針はこうだ。扱うのは一般的な理科の知識そのものなので、書籍の並びや表現をなぞらず、構成もタイトルも意図的に変える。トピックのタイトルは「実際の書籍と合っていると困る。どんどん変えてほしい」と指示した。書籍の代替物にならないことを、生成時のゲートとして計画書に書き込んだ。

先に検査網を張った（コミット f8a5f3f4）

バッチ生成を始める前に、2つの仕掛けを整備させた。

レジストリ整合性テスト: categories.ts の登録内容とコンポーネントの実在が食い違っていないかを検証するテスト
原文混入チェッカー: 生成したコンテンツに書籍の原文がそのまま混ざっていないかを機械的に照合するチェッカー

エージェントを並列で走らせると、生成物を1本ずつ目視する時間はない。人間の目の代わりに機械の網を先に張っておく、という順番にした。

trigram tokenizer のFTSは日本語3文字以上が前提。2文字キーワードは LIKE に切り替え、解答編など不要チャンクの除外条件をセットで考える
一括生成の前に検査網（整合性テスト＋原文混入チェッカー）を張ると、エージェント並列でも生成物を信用して受け取れる
原文混入チェックと事実チェックは別物。線香花火の誤りは後者でしか拾えなかった
公開コンテンツは「書籍の代替物にならない構成」を計画書のゲートに明文化しておくと、生成エージェントへの指示が迷わない
画面の違和感を拾うのは自分、切り分けと修正はAI係。ただし切り分け中に「どのページを見ているか」を取り違えると、AIも自分も同じ穴に落ちる
セッションをまたぐときは、引き継ぎプロンプトの文面よりディスク上の実態を先に確認させる。文字化けしていても実態が合っていれば続行できる

次にやること

バッチ2: 「力と運動」カテゴリの8トピックを生成する
相互参照のトピック名表記（「ろうそく」と「ロウソク」）の揺れを横断で確認する
スコープ外として除外した還元（酸化銅の還元）を、後続バッチのどこで扱うか決める

自炊した中学受験向け理科参考書をyomitoku OCRでTurso蔵書DBに取り込み、理科学習ページを4トピック増やした

自炊した理科参考書を蔵書DBに取り込み、理科学習ページを4トピック増やした

「これ、まだ取り込んでないんでしたっけ？」から始まった

Phase 0: yomitoku OCR → Markdown → トピック単位に統合

公開コンテンツにするための線引き

先に検査網を張った（コミット f8a5f3f4）

バッチ1: 燃焼カテゴリの残り4トピック（コミット 13a921df）

レートリミットで中断

セクションが空に見えるバグの切り分け

事実チェックで1件訂正

現在地を計画書に残して終了（コミット ea80072f）

学び

次にやること