Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)
What you'll learn
- Python3のスクレイピング用ライブラリBeautifulSoup、Selenium、Requests、Newspaper3k、Pandas(read_html)が扱えるようになります。
- Beautiful Soupを用いて、複数のWebページを巡回し、目的の情報を取得する方法を理解することができます。
- Seleniumを利用した、ログイン画面への対処、JavaScriptを用いた動的なサイトへの対処、画像を取得・ダウンロードする方法を理解することができます。
- newspaper3kを用いて、ニュースサイトやブログのトップページに表示されている複数の記事を順に巡回し、記事や要約、キーワードをダウンロード・保存する方法を理解することができます。
- Pandasのread_htmlを用いて、Webサイト上のテーブルに格納されているデータを取得する方法を理解することができます。
- スクレイピングにおけるXPath、CSSセレクタ、正規表現の利用方法を学ぶことができます。
- スクレイピングでデータを取得・抽出し、取得したデータを整形・グラフ化、保存する一連の流れを習得することができます。
Course content
- Preview03:17
- Preview02:50
- Preview05:05
- Preview03:58
- 01:45【重要】Udemyの使い方
Requirements
- Pythonの基本的な文法を理解されている方を対象としています。もし受講の途中で知識の不足を感じるようでしたら、参考のリンクを掲載しておりますので、補足ください。
- 講師はWindowsの環境で解説しておりますが、Macでも同様に進めていくことができます。
- スクレイピングが全くの未経験でも問題ありません。HTML、CSSの基本についても解説しております。
- 講師はAnacondaでのPython3環境を構築し、Jupyter Notebookを元に解説を進めておりますが、別のPython3環境でも進めていくことができます。
- AnacondaでのPython3の環境構築、Jupyter Notebookの使い方についての講義も提供しております。
Description
現役のデータサイエンティストが提供するWebスクレイピングに関する講座で、データサイエンスの実務における経験を基に、デザインされた講座になります。
近年、ビジネスでのデータ活用においては、世界中のWebサイトから様々なデータを取得することが求めらています。 また変化も激しい環境において、それぞれのWebサイトの構造や内容も頻繁に更新され、日々変わっていきます。
スクレイピングが難しい理由として、次のようなポイントが挙げられます。
Webサイトにより構造が異なる
Webサイトの構造が複雑・頻繁に変わる
JavaScriptでユーザーの操作によって新たなページが読み込まれるなど、特殊な技術が使われている
しかし、ビジネスでスクレイピングを用いるには、これらのポイントに適切に対処していくことが求められます。
これら難しいポイントに適切に対処し、ビジネスでスクレイピングを活用できるよう、このコースはデザインされています。
このコースの特徴は次のようなものになります。
様々なニーズや場面に応じて使い分けできるよう、Pythonのスクレイピングライブラリの中でも幅広いライブラリをカバーします。
Beautiful Soup、Selenium、Requests、newspaper3k、Pandasのread_html
ビジネスで活用するにおいて必要となる、スクレイピングにおける一連のプロセスをカバーします。
データ取得・抽出から、整形、グラフ化、保存まで
特殊な技術が使われているWebサイトも考慮し、幅広いスキルを身につけれるよう、レクチャーを提供します。
JavaScriptを用いた動的なサイトへの対処方法
ログイン画面への対処方法
リンクをたどり、複数のWebページを巡回する方法
テキスト情報・画像ファイルの取得方法
など多数
これらを通じてこのコースの受講後は、世界中のWebサイトから効率的に情報を取得することができるようになります。
このWebスクレイピングの講座では、次のトピックをカバー致します。
AnacondaでのPython3の環境構築、Jupyter Notebookの使い方
HTMLとCSSの基本
newspaper3kによるニュース記事・要約の取得と保存
Pandasでスクレイピングによる株価の取得とグラフ化・保存
RequestsとBeautiful Soupの基本的な使い方
Beautiful Soupでリンクをたどり、複数のWebページを巡回する方法
Beautiful Soupでの必要な情報の抽出方法
a) HTMLの階層を移動して、HTMLタグの該当する箇所を検索する方法
b) find、find_allメソッドにより、HTMLタグの該当する箇所を検索する方法
c) selectメソッドにより、CSSセレクタで該当する箇所を指定する方法
XPathやCSSセレクタの記述方法
正規表現の使い方
Seleniumの基本的な使い方
SeleniumによるJavaScriptを用いた動的なサイトへの対処方法
Seleniumによるログイン画面への対処方法
Selenium、Requestsによる画像ファイルのダウンロード・保存方法
実践プロジェクト
なお、Classなどオブジェクト指向の記述は、初心者向きでは無いので本コースの対象外としております。本コースでは、これらの記述を使わずに解説しておりますので、ご注意ください。
Who this course is for:
- Webスクレイピングをビジネスに活用されたい方
- Webスクレイピングを趣味に活用されたい方
- Webスクレイピングに興味があるが、始め方がわからない方
- Webサイトから効率的にデータを取得する方法を学習されたい方
Instructor
清水 義孝 (しみず・よしたか)
データサイエンティスト
1973年生まれ。
大学卒業後は、大手IT企業でシステムエンジニアとして、数々のデータウェアハウス、データ分析基盤の導入に携わる。その中で、データ分析に興味を持ち始め、データ分析には、ITの知識、スキルだけでなく、ビジネスに関する深い知識やスキルが必要だと感じる。
論理・仮説思考力、統計・定量分析、プレゼンなどのスキル、ファイナンス・マーケティングなどのビジネスの知識を習得すべく、海外のビジネススクールに通いMBA(経営学修士)取得。
現在、大手製造業でデータサイエンティストとして、ビックデータの分析に携わっている。またその経験を活かしデータ収集・分析、BIツールに関する社内講座を担当。講座を通じて、のべ500名以上に教育を提供している。
Webスクレイピング、データ分析、プログラミングに関して、初心者に役立つ情報を発信すべく、2018年よりWebサイト「Pythonで学ぶデータ分析・AI・機械学習」の運営を始める。訪問者数は毎月7万名を超え、大好評となった。
著書に、よくわかるPython3入門シリーズ、Python3によるビジネスに役立つデータ分析入門などがある。