政治資金収支報告書・表紙
「二階幹事長への10億円」が可視化される
───『政治資金データベース』では何を公開しているのですか。
「現状では、国政政党である自民党、公明党、立憲民主党、国民民主党、日本維新の会の党本部の2年分、参政党の党本部の1年分、政治団体・国際勝共連合の3年分の政治資金収支報告書をデジタル化し、その一部を整理してサイトに公開しています。たとえば〈支出先〉や〈収入元〉については、ランキング形式でトップ30をリスト化しています。
ちなみに、最初に集計した自民党本部の2019年の報告書で〈支出先(個人)〉のトップは、今回、裏金騒動の責任を取るかたちで次期衆院選不出馬を表明した二階俊博氏(当時は幹事長)で、金額は約10億円。サイトを公開したのはキックバックが問題化する2年も前でしたが、SNS上では当時から大きな反応がありました」
──デジタルデータになっているからこその分かりやすい見せ方ですね。
「さらにデータ化を継続すると比較・分析ができます。2020年も、自民党本部の支出先(個人)のトップは二階氏で約6億円。そのうえで『なぜ2019年のほうが多いのか』と考えると、『この年は参議院選挙があったことが影響したのだろうか』などといったイメージが持てて、政治活動への理解が深まります」
──自民党本部の収支報告書は1年分で約1000ページに及ぶ。データ化のために紙をめくって入力すれば、2日も3日もかかります。
「そこでAIなんです。報告書の原データはPDFで10個に分割されていますが、元のPDFを1ページずつ画像として抜き出し、OCR処理を施していきます。必要な時間は一晩ぐらいですかね。寝る前に指示を入力して、エラーなどなくうまく処理できれば朝には完成しています」
──OCRは便利ですが、誤った読み取りになるリスクもあります。
「そこで独自に組んだAIに、読み取った金額が正しいかを検算するプログラムを組み込んでおきます。報告書は書式上、ページごとに支出や収入の〈小計〉欄があります。各行の数値を読み取ると同時に、その数値を足して、〈小計〉として読み取った数値と合致しているかを確かめさせる。さらに〈小計〉の数値を足し算して、画像で読み取った〈総計〉と合っていれば、正しく読み取れていることが確認できます」
──正しく読めないと作業はいちいち止まってしまうのでは。
「誤りが生じるのは、報告書のフォーマットが微妙に違ったり、PDF画像によって紙の色の濃さが違ったりするから。白地のところにノイズがあると、〈1〉を〈4〉と読み取ったりしがちです。そこでAIに、画像を取り込む際にピントとか色をどれだけ敏感に拾うかを自動で調整するよう様々なパラメータをセットしています。トライアンドエラーを繰り返して、合計が合うまでやり直すんです。正しいパラメータにたどり着くことでAIは学習しますし、学習を重ねるほど、正確な読み取りになっていく」
──数を重ねることが読み取りの誤りを減らすことにもつながるということでしょうか。
「そうですね。網羅してはじめてこの取り組みは価値が出てくるので、続けていくことが大事だと思っています。ただ、私も1人でやっているのと、2022年にブルーモ証券の立ち上げに加わったので本業で忙しくなり、現在はあまり手をつけられていません」