import requests, bs4 search_url_keyword = 'onepiece' search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword # Webテキスト情報取得 get_url_data = requests.get(search_url) # BeautifulSoup オブジェクトを作成 soup = bs4.BeautifulSoup(get_url_data.text, 'lxml') data = soup.select('.kCrYT > a') print(data)
目次
データを一覧表示する
import requests, bs4 search_url_keyword = 'onepiece' search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword # Webテキスト情報取得 get_url_data = requests.get(search_url) # BeautifulSoup オブジェクトを作成 soup = bs4.BeautifulSoup(get_url_data.text, 'lxml') list = soup.select('.kCrYT > a') for data in list: print(data)
URL一覧を取得する
import requests, bs4 import re search_url_keyword = 'onepiece' search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword # Webテキスト情報取得 get_url_data = requests.get(search_url) # BeautifulSoup オブジェクトを作成 soup = bs4.BeautifulSoup(get_url_data.text, 'lxml') list = soup.select('.kCrYT > a') for data in list: url = re.sub(r'/url\?q=|&sa.*', '',data.get('href')) print(url)
順位表示
import requests, bs4 import re domain = 'https://xn--hhrp05b9mic7d.online' search_url_keyword = 'ワンピース 動画 895' search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword # Webテキスト情報取得 get_url_data = requests.get(search_url) # BeautifulSoup オブジェクトを作成 soup = bs4.BeautifulSoup(get_url_data.text, 'lxml') list = soup.select('.kCrYT > a') for i,data in enumerate(list): url = re.sub(r'/url\?q=|&sa.*', '',data.get('href')) print("{0}位 {1}".format(i+1,url))
順位を絞り込み
import requests, bs4 import re domain = 'https://xn--hhrp05b9mic7d.online' search_url_keyword = 'ワンピース 動画 897' search_url = 'https://www.google.co.jp/search?hl=ja&num=50&q=' + search_url_keyword # Webテキスト情報取得 get_url_data = requests.get(search_url) # BeautifulSoup オブジェクトを作成 soup = bs4.BeautifulSoup(get_url_data.text, 'lxml') list = soup.select('.kCrYT > a') for i,data in enumerate(list): url = re.sub(r'/url\?q=|&sa.*', '',data.get('href')) if domain in url: print("{0}位 {1}".format(i+1,url)) print(str(i+1)+'位')
from bs4 import BeautifulSoup import requests import re import random import time def seo(keyword): domain = 'https://xn--hhrp05b9mic7d.online' try: search_url_keyword = keyword search_url = 'https://www.google.co.jp/search?hl=ja&num=100&q=' + search_url_keyword res_google = requests.get(search_url) soup = BeautifulSoup(res_google.text, 'html.parser') list = soup.select('.kCrYT > a') for i,data in enumerate(list): url = re.sub(r'/url\?q=|&sa.*', '',data.get('href')) if domain in url: #print("{0}位 {1}".format(i+1,url)) print('【' + keyword + '】 → ' + str(i+1)+'位') except: pass seo('ワンピース 動画 900') seo('ワンピース 動画 800') seo('ワンピース 動画 700') seo('ワンピース 動画 600') seo('ワンピース 動画 500') seo('ワンピース 動画 400') seo('ワンピース 動画 300') seo('ワンピース 動画 200') seo('ワンピース 動画 100')
インストール
#Chromiumとseleniumをインストール #「!」印ごとColaboratoryのコードセルに貼り付けます。 !apt-get update !apt install chromium-chromedriver !cp /usr/lib/chromium-browser/chromedriver /usr/bin !pip install selenium
#SeleniumとBeautifulSoupのライブラリをインポート from selenium import webdriver from selenium.webdriver.chrome.options import Options from bs4 import BeautifulSoup # ブラウザをheadlessモード(バックグラウンドで動くモード)で立ち上げてwebsiteを表示、生成されたhtmlを取得し、BeautifulSoupで綺麗にする。 options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('--no-sandbox') options.add_argument('--disable-dev-shm-usage') driver = webdriver.Chrome('chromedriver',options=options) driver.implicitly_wait(10) driver.get("https://www.google.com/") html = driver.page_source.encode('utf-8') soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
https://qiita.com/ftoyoda/items/fe3e2fe9e962e01ac421
引用