目次
ドライバで開いているページのHTMLソースを取得する
seleniumを使ってスクレイピングをしている際に、ドライバが開いているページのHTMLコンテンツを取得したいときにはpage_sourceコマンドを使用します。
例として、このブログのトップページのHTMLコンテンツを取得するには以下のようなコマンドで実現できます。
from selenium import webdriver
#ドライバの起動
chrome_path = "ドライバのパス"
driver = webdriver.Chrome(chrome_path)
#えだはのブログにアクセス
url = "https://edaha-room.com/"
driver.get(url)
#えだはのブログのHTMLソースを取得
html_contents = driver.page_source
#ドライバを閉じる
driver.quit()
print(html_contents)
※私がよく間違えるのですが、page_sourceの後ろに括弧をつけてdriver.page_source()としないでください。正しいコードで書かないと次のようなエラーを吐きます。
TypeError: ‘str’ object is not callable
コメント