[Python] basic認証のサイトをクロールして情報を取得する

Requests はPythonでhttpコンテンツを簡単に取得できるライブラリ。スクレイピングを初心者が試したいときにも使いやすい。

Basic認証がかかっていても、認証情報を指定することで問題なくコンテンツを取得できる。

python環境で、
import requests requests.get('url', auth=('user_id','password'));
とすると、

<Response [200]>
と返ってくる(passwordを変えて試してみると、ちゃんと401が返ってくる)

通常と同じように、Response型でWEBサイトが取得できるので、HTTPヘッダーやテキストコンテンツも扱える。
r = requests.get('url', auth=('user_id','password')); r.headers r.text


簡単!

[data-hatena-bookmark-layout="standard-noballoon" data-hatena-bookmark-lang="ja" title="このエントリーをはてなブックマークに追加"] img [src="https://b.st-hatena.com/images/entry-button/button-only@2x.png" alt="このエントリーをはてなブックマークに追加" width="20" height="20" style="border: none;"]