書類は撮らない。AIとブラウザ拡張に取りに行かせる

税理士向けの生成AI活用をまとめた書籍を読んだ。証憑を撮影またはスキャンしてAIに読ませる、という入口の事例が紹介されている。同じ入口を自分はどう扱っているか棚卸ししてみたら、最初の一手からして違っていた。自分は撮る前に、その書類がそもそも電子で存在していないかを考える。存在するなら、取りに行く方を道具化してある。

この記事は、その書籍の事例をお題に借りて、自分の実運用ともう一段の引き上げ方を書くシリーズの1本である。

取りに行くための道具を2つ持っている

自分の環境には、書類を取りに行くための道具が2つある。

1つ目は、自分のログイン済みのブラウザをAIエージェントが操作するCLIである。ボット検知の強いサイトでも通ることがあり、Amazonから書籍情報を取得する用途で実績がある。ログイン済みのセッションをそのまま使わせているのが理由で、サイト側から見れば人が操作しているのと同じ状態になる。撮影を入口にする代わりに、その状態のままサイトを操作させ、必要な情報をこちらから取りに行く形にしてある。

2つ目は、自作したChrome拡張機能である。開いているサイトからPDFのリンクを検出し、一括でダウンロードする。キーワードで対象を絞り込む機能を使えば、一括ダウンロードの対象を必要な種類の書類だけに絞れる。同一ドメインの他ページまで辿る深いスキャンも備えているので、書類が一覧ページではなく個別の子ページに置かれているサイトでも取りこぼしにくい。取得済みのPDFは管理していて、初期状態で選択から外れるため、同じファイルを二重に取りに行くこともない。

どちらの道具も、「1枚ずつ人が保存する」作業を「一覧から選んでまとめて取る」作業に変える点は共通している。

撮影を最後の手段にする理由

紙に出た時点で、書類は検索できない画像になる。文字の情報が画像の情報に変わってしまい、その先の読み取りの精度は撮った画像の状態に左右される。撮影の手間はそのたびに発生し、撮り直しもきかない。

電子交付の明細や請求書や領収書には、発行元のサイトに原本がある。取りに行く手順は一度書いておけば、次からはくり返し使える。毎回同じ操作を人が繰り返すのと違って、書いた手順はそのまま資産として残る。

書類は撮る前に、取りに行けないか考える。サイトを操作するAIと、PDFを一括回収する拡張機能が入口になることを示す図 — 図1: 書類は撮る前に、取りに行けないか考える

だから優先順位を決めてある。電子で取れるものはまず取りに行き、紙でしか受け取れないものだけをスキャンに回す。

「スキャンして送ってください」と頼む前に

会計事務所が顧問先に日常的に頼む定番の依頼に、「スキャンして送ってください」がある。この定番も、見直す入口になる。

電子で取れる書類は、取得の手順を事務所側が道具として持てば、顧問先の手間が減り、元データのまま受け取れる。撮影を頼む前提を疑うだけで、顧問先の作業と事務所の受け取り方の両方が変わる余地がある。どのサイトのどの書類にこの形を当てるかは、事務所ごとの設計になる。自分もまだすべての書類をこの形に移せているわけではなく、ネットバンキングや顧問先サイトでの定常運用はこれからの話である。

「上手に頼める人」を育てる話ではなく、書類の入口をどう設計するかという話にしておきたい。書類の入口についても、撮る運用に頼るのではなく、取りに行く手順としてファイルにしておく。