python BeautifulSoup メモ

2019年8月16日2019年8月27日

import requests, bs4

search_url_keyword = 'onepiece'

search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword
# Webテキスト情報取得
get_url_data = requests.get(search_url)

# BeautifulSoup オブジェクトを作成
soup = bs4.BeautifulSoup(get_url_data.text, 'lxml')
data = soup.select('.kCrYT > a')

print(data)

データを一覧表示する

import requests, bs4

search_url_keyword = 'onepiece'

search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword
# Webテキスト情報取得
get_url_data = requests.get(search_url)

# BeautifulSoup オブジェクトを作成
soup = bs4.BeautifulSoup(get_url_data.text, 'lxml')
list = soup.select('.kCrYT > a')

for data in list:
  print(data)

URL一覧を取得する

import requests, bs4
import re
search_url_keyword = 'onepiece'

search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword
# Webテキスト情報取得
get_url_data = requests.get(search_url)

# BeautifulSoup オブジェクトを作成
soup = bs4.BeautifulSoup(get_url_data.text, 'lxml')
list = soup.select('.kCrYT > a')

for data in list:
url = re.sub(r'/url\?q=|&sa.*', '',data.get('href'))
print(url)

順位表示

import requests, bs4
import re

domain = 'https://xn--hhrp05b9mic7d.online'

search_url_keyword = 'ワンピース　動画　895'

search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword
# Webテキスト情報取得
get_url_data = requests.get(search_url)

# BeautifulSoup オブジェクトを作成
soup = bs4.BeautifulSoup(get_url_data.text, 'lxml')
list = soup.select('.kCrYT > a')

for i,data in enumerate(list):
  url = re.sub(r'/url\?q=|&sa.*', '',data.get('href'))
  print("{0}位 {1}".format(i+1,url))

順位を絞り込み

import requests, bs4
import re

domain = 'https://xn--hhrp05b9mic7d.online'

search_url_keyword = 'ワンピース　動画　897'

search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword
# Webテキスト情報取得
get_url_data = requests.get(search_url)

# BeautifulSoup オブジェクトを作成
soup = bs4.BeautifulSoup(get_url_data.text, 'lxml')
list = soup.select('.kCrYT > a')

for i,data in enumerate(list):
  url = re.sub(r'/url\?q=|&sa.*', '',data.get('href'))
  if domain in url:
    print("{0}位 {1}".format(i+1,url))
    print(str(i+1)+'位')

from bs4 import BeautifulSoup
import requests
import re
import random
import time

def seo(keyword):

    domain = 'https://xn--hhrp05b9mic7d.online'
    try:
        search_url_keyword = keyword
        search_url = 'https://www.google.co.jp/search?hl=ja&num=100&q=' + search_url_keyword

        res_google = requests.get(search_url)
        soup = BeautifulSoup(res_google.text, 'html.parser')

        list = soup.select('.kCrYT > a')

        for i,data in enumerate(list):
          url = re.sub(r'/url\?q=|&sa.*', '',data.get('href'))
          if domain in url:
            #print("{0}位 {1}".format(i+1,url))
            print('【' + keyword + '】 → ' + str(i+1)+'位')
    except:
        pass

seo('ワンピース 動画 900')      
seo('ワンピース 動画 800')
seo('ワンピース 動画 700')
seo('ワンピース 動画 600')
seo('ワンピース 動画 500')
seo('ワンピース 動画 400')
seo('ワンピース 動画 300')
seo('ワンピース 動画 200')
seo('ワンピース 動画 100')

インストール

#Chromiumとseleniumをインストール
#「!」印ごとColaboratoryのコードセルに貼り付けます。
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium

#SeleniumとBeautifulSoupのライブラリをインポート
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

# ブラウザをheadlessモード（バックグラウンドで動くモード）で立ち上げてwebsiteを表示、生成されたhtmlを取得し、BeautifulSoupで綺麗にする。
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver',options=options)
driver.implicitly_wait(10)
driver.get("https://www.google.com/")
html = driver.page_source.encode('utf-8')
soup = BeautifulSoup(html, "html.parser")
print(soup.prettify())

https://qiita.com/ftoyoda/items/fe3e2fe9e962e01ac421
引用

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！