2026年4月18日の開発日記 - 会計基準条文取得90%達成とCFWS差分レビュー

2026年4月18日の開発日記

eurekapu-nuxt4プロジェクトに集中した1日。会計基準条文取得の残り31件を潰しにかかり解決率90%に到達、平易解説の短い8Qを加筆して全Q200文字以上に引き上げ、さらにCFWSのKK版差分レビューとマッピングCSV正規化まで進めた。

今日のタイムライン

タイムライン

今日やったこと

1. 会計基準条文取得 Phase F — 解決率90%達成

昨日までのPhase Eで223件が解決済み（87.8%）だった条文取得を残り31件に着手。ガイドライン3件はe-Govに収録されていないため金融庁サイトから取得、連結財務諸表規則4条文をe-Govから追加取得し、provisions_indexを使ったフォールバック再分類ロジックを新規追加した。

主な成果:

解決率: 87.8% → 90.0%（resolved 223 → 235）
条文番号付き引用は100%解決済み
正規表現alternation順序バグと文字化け（U+FFFD）5箇所を一括修正
残り26件は条文番号なしの一般参照のみ

詳細: 会計基準条文取得 Phase F -- 解決率90%達成までの試行錯誤

2. Layer 3 平易解説の加筆

全84Qに生成済みだったplain_explanationの文字数を統計チェック。平均147文字で目標（200〜500文字）を下回り、100文字未満が8Q見つかった。各Qのcitationsと関連条文を照合しながら加筆し、全Q200文字以上に引き上げた。

主な成果:

100文字未満の8Q（Q6-3, Q6-6, Q7-3, Q7-8, Q7-11, Q7-12, Q7-15, Q7-17）を加筆
条文テキストを踏まえた文脈のある解説に拡充
Phase I完了（全84Q目標文字数達成）

詳細: CF計算書Q&A 平易解説の加筆 -- 100文字未満の8Qを200文字以上に引き上げる

3. CFWS差分レビューとマッピングCSV正規化

Q3-4のKK版（手修正Excel）とスクリプト出力のExcel差分検出を実行。構造変更が行257件・列86件と大量だった。並行してcf-mapping-qa.csvからq_number列を排除し、勘定科目を(account, cf_label, cf_type)でユニーク化して68行のクリーンなマッピングテーブルに整理。BS区分順に並び替えてレビューしやすくした。

主な成果:

Excel差分検出スキルで構造差分を網羅的に把握
CSVを68行に正規化、BS区分順（流動資産→固定資産→流動負債→固定負債）にソート
KK版との差分を詳細ドキュメント化（修正方針付き）

詳細: CFWS差分レビューとマッピングCSV正規化

今日の試行錯誤

#	テーマ	試したこと	結果	気づき
1	ガイドライン条文取得	e-Govで検索	収録なし	ガイドラインはe-Gov外、FSAサイトにある
2	ガイドライン条文取得	金融庁Webサイトから取得	成功	リダイレクト先のURLに注意
3	文字化け	ビルド後にunresolved増加	U+FFFD発見	正規表現修正で新たに検出された引用
4	文字化け	該当箇所を個別修正	5箇所散在	一括修正が必要だった
5	正規表現	`連結財務諸表規則`が先にマッチ	バグ	alternation順序は長い文字列を先に
6	実務指針18-2	cf-jitsumu-shishinに分類	不正	base_numだけの再分類では不十分
7	実務指針18-2	provisions_indexフォールバック追加	成功	存在しない条文は他の実務指針から探す
8	CSV正規化	q_number列ありでCSV出力	勘定科目重複	Q別展開すると正規化できない
9	CSV並び替え	accountソートで出力	ファイルロック	Excelで開いたままだった
10	CSV並び替え	BS区分順に再ソート	読みやすい	流動資産→固定資産→負債の順が自然

今日の学び

e-Govには法令しか収録されておらず、ガイドライン（金融庁通達）はFSAサイトを直接参照する必要がある
正規表現のalternationは長い文字列を先に置く。部分一致で短い方が先にマッチすると、長い方が検出されない
文字化け修正が連鎖的に新しい検出を生む。1つ直すと次の問題が見えてくるのはパーサ作業の常
CSVのキー設計はユースケースから逆算する。INDEX/MATCHで使うなら勘定科目をキーにしたユニークテーブルが正解

関連記事

#日記 #会計基準 #CF計算書 #eurekapu