Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup・Selenium・Requests)
What you'll learn
- Python3のスクレイピング用ライブラリBeautifulSoup、Selenium、Requests、Newspaper3k、Pandas(read_html)が扱えるようになります。
- Beautiful Soupを用いて、複数のWebページを巡回し、目的の情報を取得する方法を理解することができます。
- Seleniumを利用した、ログイン画面への対処、JavaScriptを用いた動的なサイトへの対処、画像を取得・ダウンロードする方法を理解することができます。
- newspaper3kを用いて、ニュースサイトやブログのトップページに表示されている複数の記事を順に巡回し、記事や要約、キーワードをダウンロード・保存する方法を理解することができます。
- Pandasのread_htmlを用いて、Webサイト上のテーブルに格納されているデータを取得する方法を理解することができます。
- スクレイピングにおけるXPath、CSSセレクタ、正規表現の利用方法を学ぶことができます。
- スクレイピングでデータを取得・抽出し、取得したデータを整形・グラフ化、保存する一連の流れを習得することができます。
- 実践的な演習問題を通じてスクレイピングの理解を深めることができます。
Requirements
- Pythonの基本的な文法を理解されている方を対象としています。もし受講の途中で知識の不足を感じるようでしたら、参考のリンクを掲載しておりますので、補足ください。
- 講師はWindowsの環境で解説しておりますが、Mac(M1/M2/M3を除く)でも同様に進めていくことができます。
- スクレイピングが全くの未経験でも問題ありません。HTML、CSSの基本についても解説しております。
- 講師はAnacondaでのPython3環境を構築し、Jupyter Notebookを元に解説を進めておりますが、別のPython3環境でも進めていくことができます。
- AnacondaでのPython3の環境構築、Jupyter Notebookの使い方についての講義も提供しております。
Description
現役のデータサイエンティストが提供するWebスクレイピングに関する講座で、データサイエンスの実務における経験を基に、デザインされた講座になります。
近年、ビジネスでのデータ活用においては、世界中のWebサイトから様々なデータを取得することが求められています。 また変化も激しい環境において、それぞれのWebサイトの構造や内容も頻繁に更新され、日々変わっていきます。
スクレイピングが難しい理由として、次のようなポイントが挙げられます。
Webサイトにより構造が異なる
Webサイトの構造が複雑・頻繁に変わる
JavaScriptでユーザーの操作によって新たなページが読み込まれるなど、特殊な技術が使われている
しかし、ビジネスでスクレイピングを用いるには、これらのポイントに適切に対処していくことが求められます。
【このコースで扱うトピック】
これら難しいポイントに適切に対処し、ビジネスでスクレイピングを活用できるよう、このコースはデザインされています。
このコースで扱うトピックは、これらのものになります。
様々なニーズや場面に応じて使い分けできるよう、Pythonのスクレイピングライブラリの中でも幅広いライブラリをカバーします。
Beautiful Soup、Selenium、Requests、newspaper3k、Pandasのread_html
ビジネスで活用するにおいて必要となる、スクレイピングにおける一連のプロセスをカバーします。
データ取得・抽出から、整形、グラフ化、保存まで
特殊な技術が使われているWebサイトも考慮し、幅広いスキルを身につけれるよう、レクチャーを提供します。
JavaScriptを用いた動的なサイトへの対処方法
ログイン画面への対処方法
リンクをたどり、複数のWebページを巡回する方法
テキスト情報・画像ファイルの取得方法
など多数
これらを通じてこのコースの受講後は、世界中のWebサイトから効率的に情報を取得することができるようになります。
またレクチャーで学んだ知識が定着するよう、豊富で実践的な演習を用意しております。
なお、Classなどオブジェクト指向の記述は、初心者向きでは無いので本コースの対象外としております。本コースでは、これらの記述を使わずに解説しておりますので、ご注意ください。
Who this course is for:
- Webスクレイピングをビジネスに活用されたい方
- Webスクレイピングを趣味に活用されたい方
- Webスクレイピングに興味があるが、始め方がわからない方
- Webサイトから効率的にデータを取得する方法を学習されたい方
Instructor
清水 義孝 (しみず・よしたか)
データサイエンティスト
1973年生まれ。
大学卒業後は、大手IT企業でシステムエンジニアとして、数々のデータウェアハウス、データ分析基盤の導入に携わる。その中で、データ分析に興味を持ち始め、データ分析には、ITの知識、スキルだけでなく、ビジネスに関する深い知識やスキルが必要だと感じる。
論理・仮説思考力、統計・定量分析、プレゼンなどのスキル、ファイナンス・マーケティングなどのビジネスの知識を習得すべく、海外のビジネススクールに通いMBA(経営学修士)取得。
現在、大手製造業でデータサイエンティストとして、ビックデータの分析に携わっている。またその経験を活かしデータ収集・分析、BIツールに関する社内講座を担当。講座を通じて、のべ1000名以上に教育を提供している。
Webスクレイピング、データ分析、プログラミングに関して、初心者に役立つ情報を発信すべく、2018年よりWebサイト「Pythonで学ぶデータ分析・AI・機械学習」の運営を始める。訪問者数は毎月15万名を超え、大好評となった。
著書に『Python最速データ収集術 〜スクレイピングでWeb情報を自動で集める (IT×仕事術) 』(技術評論社)などがある。