EDINET APIを使って、2023年4月1日から2024年3月31日に発行された全上場企業(約3900社)の有価証券報告書をダウンロードして、試しに監査法人のシェアをグラフにしてみました。
Pythonを使えば、あっという間にできます。
全データをダウンロードしたので、これ以外にもいろいろな分析が可能になります。
しかし、このデータを作る段階でちょっとした苦労がありました。企業はEDINETコードで統一されているのですが、監査法人は文字データしかないので、これをまとめるのが容易ではありません。なぜかというと、表記ゆれというものがあるからです。
例えば、「有限責任監査法人トーマツ」と「有限責任監査法人ト ー マ ツ」は人間であれば同じと判定してくれますが、コンピュータは別物と判定してしまいます。企業の担当者によって、この書き方がまちまちなので、同じ監査法人にも関わらず、表記違いが複数出てきてしまいます。空白を開けない人、空白を開ける人、その空白も1文字分だったり、2文字分だったり、本当にさまざまです。一番ひどい表記ゆれはトーマツでした。これを同じものだとコンピュータに認識させるためのコードが必要になります(正規化と言います)。
監査法人も監査法人コードというものを作ってもらえると楽になるのですが。
なお、このEDINETのデータ、ときどき間違いがあります。2024/3/28提出の株式会社山田債券回収管理総合事務所の監査報酬が、データ上ではなんと29,000,000,000円となっていました(290億円!実際は29百万円で3桁も多かった)。集計したら、RSM清和監査法人が突出していたので、調べたらゼロが3つ多かったということが判明しました。
ダウンロードしたzipファイルがいくつか開けない、ということもあり、取りこぼしもあります。
なので、どこまで信用できるのか、ちょっと怪しくなってきましたが、とりあえず自動で集計できることはありがたいです。
ちなみに、全上場企業別監査人一覧を作った目的は、監査人別の不正会計の兆候のある企業リストを作りたかったからです。残念ながらここでは公表できません(あくまで不正会計の「兆候」に留まりますが、あらぬ風評被害を招くリスクがありますので)。