2026年1月11日の開発日記

今日はtax-assistantのレシートバリデーション機能を大幅に改善した。サブエージェントがOCR結果と違う値を返す「ハルシネーション」問題を解決するため、3段階の信頼性評価フローを実装。また、Claude Codeの設定をユーザーレベルとプロジェクトレベルに分離する作業も完了した。

今日やったこと

サブエージェントがDBのOCR結果（2024/02/21）を「10月10日」と誤読するハルシネーション問題が発生。これを解決するため、責務を分離した3段階フローを実装した。

Step 1: 画像読み取り（サブエージェント）

Step 2: 機械的比較（メインエージェント）

Step 3: 再判定（サブエージェント）

この設計により、メインエージェントの負荷を軽減しつつ、ハルシネーションを検出できるようになった。53件のレシートを処理してテスト完了。

ジャンクションで.claudeを共有する構成だと、/import-receiptsのようなプロジェクト固有コマンドが他プロジェクトにも見えてしまう問題があった。これを解決するため分離を実施。

~/.claudeを独立したgitリポジトリ（dotclaude）として管理。古いコマンド3個（blog, daily_review, gemini-search）を削除し、.gitignoreでシステムファイルを除外する設定も追加した。

詳細: Claude Codeの.claude設定をユーザーレベルとプロジェクトレベルに分離する

UIデザイン原則49個・294項目のデータ品質を検証。原則自身を評価基準として使う「再帰的レビュー」を実施し、98項目のtitleフィールドに残っていた「Bad: 」「Good: 」プレフィックスを削除した。

詳細: デザイン原則の再帰的レビュー：49原則・294項目の品質検証

デザイン原則のOGPプレビュー画面で事例が区別しにくい問題を修正。

ハルシネーション対策は責務分離が有効: サブエージェントにOCR結果を渡さず、後で機械的に比較することで誤読を検出できる
DB中心設計でコマンド長を抑制: サブエージェントの結果をDBに保存し、メインエージェントはDB参照だけで比較を行えば、長大な配列をコマンドに埋め込まなくて済む
スキル定義は最後まで読む: 冒頭だけ読んで自分で実装を始めると、既に定義されているフローを無視してしまう