Blog

PythonでWebスクレイピングしてみた

私はジャズが好きで、ちょくちょくライブに行きます。

前々から複数のライブハウスの予定を一気に表示してくれるサービスなんて無いかなあと思っておりました。

ふと調べてみたら、あるじゃないですか簡単そうな方法が・・・!

ということでPythonでWebスクレイピングに挑戦してみました。

最も有名と言われているスクレイピングのPythonライブラリ、PyQueryを使います。

 

例のごとく、インストールはpipで一発です。

PyQueryではその名の通りjQuery風のセレクタを使えるということだったのですが、jQueryなにそれ美味しいの?状態だったので、ドットインストールでひと通り勉強。

凄くシンプルな記述で、対象のhtmlから扱いたい要素を指定できるということですね。

 

今回は、ブルーノートコットンクラブピットイン晴れたら空に豆まいての4つのライブハウスから、指定した月の日にちごとにライブの予定(ライブのタイトル)を取得し、データフレームにおさめて、最後にhtmlの表にして吐き出すスクリプトを書いてみました。

なにしろ独学素人なので美しくないところもあるかと思いますが、とりあえず欲しい結果は得られた模様です。

それぞれのサイトのhtmlをじっくり見ながら、どうやって欲しい情報(ライブのタイトル)が記述されてる要素を指定するか検討します。

 

こんな感じで、以下のような表が得られました。

jazzhtml

 


This Post Has 0 Comments

Leave A Reply