EDINET の表（Table）の情報をBeautifulSoupを使ってスクレイピングする

この記事では、EDINETのデータを収集するために

BeautifulSoupを使ってスクレイピングしたのでそのことを残しておきます。

コードも載せます。

はじめに

今回の目的は上の画像のようなEDINET上で公開されているデータの表の情報をスクレイピングで取得して、取得したデータをデータベースに保存するといったもの。

これに近い作業を行う人向けの記事になるかと思います。

先に結論を言っておくと今回実装したコードでは、も約１割の会社の目的の情報が取得出来ませんでした。

実装はここに公開しています。

READMEに従えば、実行できると思うので説明は割愛。

プログラムは脳死で書いているので変数名などにケチつけないでください。

ファイルそれぞれの役割は大体以下のようになっています。

今回実装したコードでは、約１割の会社の情報が取得出来ませんでした。

原因としては、edinetに公開しているファイルのうちformatに従っていない会社があるので、これらの会社の情報はうまく取得出来ませんでした。

仮に１年分の情報を取得するとなると約4300社ほどあり、そのうち約4000社の情報は自動で取得できているので全手動よりは確実に楽はできていると思いますけど。。。

実装している側としてもモヤモヤする結果になりました。

EDINET側でももう少しformatを厳しくしていただけるとありがたいですね。

Follow me!