不定期になりますが、受講を終えた皆様にメールマガジンをお送りしています。過去にお送りしたものから、今回は2019年12月号の内容をご紹介します。
2019年12月号メールマガジンの内容
お世話になっております。 ガンマソフトです。 """ 今回は「特殊なWebページのスクレイピング方法」 をお届けします。ぜひ参考にしていただけたら幸いです。 """ 講座では「requests」と 「BeautifulSoup」の2つの 外部モジュールを組み合わせた方法でスクレイピングしました。 大抵のWebページはこの方法でスクレイピングできます。 しかし、この方法でスクレイピングできないことがあります。 例えば、Yahoo!やTwitterにある頻繁に更新されているページです。 これらは、Webサーバーから元になるHTMLファイルをダウンロードした後に、 ブラウザ内で別のHTMLを作り直します。そのため、 「requests」でダウンロードしたHTMLファイルを「BeautifulSoup」 で解析しても、ブラウザで見ている内容をスクレイピングできません。 この問題は「requests-html」という外部モジュールを使うと解決できます。 今回はその方法をご紹介します。 <requestsで取得できないWebページをスクレイピングする方法> https://gammasoft.jp/blog/how-to-download-web-page-created-javascript/ 普段は動きの軽い「requests」と 「BeautifulSoup」の組み合わせの方が便利ですが、 それでスクレイピングできない時はこの方法を試してみてください。 内部でブラウザを稼働させているので、動きは遅くなりますが、 ブラウザと同じ内容をスクレイピングできます。 <年末年始の休業期間について> 以下の期間を年末年始の休業とさせていただきます。 2019年12月28日(土)〜 2020年1月5日(日) ※ 誠に恐れ入りますが、期間中にいただいたご質問やお問い合わせは、 休業明けから順次お返事させていただきます。何卒ご理解願います。 早いもので2019年もあとわずかとなりました。 本年も格別のご高配を賜り、誠にありがとうございました。 今年はPythonがかなり注目された一年でしたが、 来年は着実に普及して行くと考えられます。 引き続き皆様のお役に立ちそうな情報をお届けしたいと 考えておりますので、何卒宜しくお願い申し上げます。 ではまた次回も宜しくお願い申し上げます。 良き新年をお迎えになりますようお祈り申し上げます。 /* [Python通信講座]メルマガ2019年12月号 */ バックナンバーはこちらでご覧になれます。 https://gammasoft.jp/blog/tag/mail-mag/ ご意見ご感想はこちらまでお願いいたします。 https://gammasoft.jp/contact/ メルマガ配信の停止をご希望される場合、お手数をおかけしますが、 本メールに「配信停止」とご記入のうえそのままご返信ください。