CFWS差分レビューとマッピングCSV正規化
朝、Q3-4の_KK版(手修正Excel)とスクリプト出力を並べてExcel差分検出スキルを走らせた。構造変更だけで257件の行挿入/削除と86件の列挿入/削除が返ってきて、目視レビューの限界を突きつけられた。もう一つの軸は、昨日生成したcf-mapping-qa.csvの正規化。Q番号列が混ざっていて勘定科目の重複排除ができない状態を、68行のクリーンなマッピングテーブルに絞り込んだ。
背景
eurekapu-nuxt4では、Pythonスクリプトが各論点(Q番号)のキャッシュフロー精算表(CFWS)をExcelとして自動生成する。ユーザーが手修正した版(_KKサフィックス付き)と比較して「何を直したか」を把握し、スクリプト側に反映する必要がある。
同時に、CF項目マッピング(どの勘定科目がどのCFラベルに対応するか)をCSVで管理しているが、前日にJSON→CSV変換した際にQ番号ごとに行を展開してしまい、勘定科目が正規化されていなかった。
1. Excel差分検出 - KK版との構造差分
差分検出スキルの実行
差分検出スキルにソースExcelと_KK版の2ファイルを渡す。スキルは6カテゴリ(行挿入/削除、列挿入/削除、セル値変更、書式変更)で変更を拾い、サマリーを返す。
Q3-4の1回目の検出結果:
| カテゴリ | 件数 |
|---|---|
| 行挿入/削除 | 257件 |
| 列挿入/削除 | 86件 |
| セル値変更 | 10件 |
セル値変更10件はcf-mappingシートのマッピング修正だった。KK版でマッピングを手修正した後、CSVを正規化してから再度差分検出を走らせると、セル値変更は0件に落ちた。構造変更(行列の挿入削除)だけが残った。
2. CSV正規化 - q_number列の排除と重複排除
問題の発見
cf-mapping-qa.csvを開くと、A列にq_numberが入っていた。
q_number,account,cf_label,cf_type
Q3-1,売掛金,売上債権の増減,operating
Q3-1,商品,棚卸資産の増減,operating
Q3-2,売掛金,売上債権の増減,operating
...
同じ勘定科目が複数のQ番号に登場するたびに行が増える。ExcelのINDEX/MATCHでaccountをキーにcf_labelを引くには、勘定科目がユニークでなければならない。
原因
JSONからCSVへの変換時に、Q番号ごとに展開していた。元のJSON(cf_mapping_master)は勘定科目で正規化されており、qs配列で複数Q対応を表現している。CSV化の段階でその構造を崩していた。
修正: (account, cf_label, cf_type)でユニーク化
JSONのcf_mapping_masterから直接、(account, cf_label, cf_type)の3列でユニーク化したCSVを再生成した。同じaccountでcf_labelがnoneと実ラベルの両方を持つ場合は、noneを除外してメインのマッピングだけ残す。
結果、Q別展開で膨らんでいた行数が 68行 に収まった。
3. ファイルロックとの格闘
ソート後にCSVを上書きしようとしたら、Excelで開いたままだった。
Error: EBUSY: resource busy or locked, open 'cf-mapping-qa.csv'
Windows環境ではExcelがファイルを排他ロックする。別名(_v2.csv)で出力して作業を続行し、Excelを閉じてから元ファイルに上書きした。地味だが、Windows + Excel + CLIの組み合わせでは毎回踏む罠になっている。
4. BS区分順ソート
最初はaccount名のアルファベット順でソートしたが、「流動資産→固定資産→流動負債→固定負債の順に並べてほしい」という要望が来た。
accounts_masterのBS区分情報を使って、以下の優先順位でソートし直した:
- 流動資産: 受取手形、売掛金、商品、製品、仮払消費税等
- 固定資産: 建物、機械装置、土地、投資有価証券、長期貸付金...
- 流動負債: 支払手形、買掛金、短期借入金、未払消費税等...
- 固定負債: 社債、長期借入金、退職給付引当金...
- 為替・現金収支: 為替差損益、現金及び預金
BS区分順に並んだCSVは、Excelシート上でも「上から順に資産→負債」と視線が流れ、レビューしやすくなった。
5. 差分ドキュメント化
2回目の差分検出(CSV正規化後)の結果を、memo/2026-04-18/cfws-q3-4-kk-diff.mdに詳細ドキュメントとして残した。
記載内容:
- 比較元・比較先のファイルパス
- シートごとの構造変更(どの行が挿入/削除されたか)
- 変更の意図(KK版で何を直したかったのか)
- スクリプト側で対応すべき修正方針
構造変更257件 + 列変更86件を全て記録したので、次回のスクリプト修正時にこのドキュメントを参照してひとつずつ潰していける。
試行錯誤のタイムライン
| 時刻 | 作業 |
|---|---|
| 09:29 | Excel差分検出スキルでQ3-4のKK版差分を検出 |
| - | cf-mapping-qa.csvのq_number列問題を発見 |
| - | JSONからCSVを再生成(q_number排除、68行にユニーク化) |
| - | accountソートを依頼 → ファイルロックで別名出力 |
| - | BS区分順(流動資産→固定資産→流動負債→固定負債)に再ソート |
| - | KK版マッピング修正後、2回目の差分検出(セル変更0件に) |
| - | 差分ドキュメントをmemo/に詳細記録 |
学んだこと
- CSV正規化は変換時にやる: JSONの構造をCSVに落とす段階で、用途に合わせたキー設計をしないと後から手戻りが発生する。今回は「Q番号ごとに1行」ではなく「勘定科目ごとに1行」が正解だった
- 差分検出→修正→再検出のサイクル: KK版のマッピング修正をCSVに反映してから再度差分を取ると、ノイズが消えて構造変更だけが浮き上がった。修正と検証を交互に回すと差分が収束する
- ファイルロックは作業フローに組み込む: Windows + Excelの排他ロックは避けられない。別名出力→後で上書きのパターンを標準手順にしておくと、作業が止まらない