Curso-lenguaje-python/dia_11/03_web_scraping_03.py

"""
Web scraping básico

Con las librerias beautifulsoup4, lxml y requests

"""

import bs4
import requests

# Variables
raiz = 'http://books.toscrape.com/catalogue/page-'
extension = '.html'
fin_url = True
page = 0
lista_titulos = []

# Bucle para formar url y añadir a una lista
while fin_url:

    page += 1
    page = str(page)

    enlace = raiz + page + extension

    resultado = requests.get(enlace)
    sopa = bs4.BeautifulSoup(resultado.text, 'lxml')

    if resultado:
        page = int(page)

        # Todos los títulos
        titulos = sopa.select('.product_pod a')
        for title in titulos:
            if title.get('title') != None:
                lista_titulos.append(title.get('title'))

    else:
        fin_url = False
ADD dia 11 2023-04-12 21:59:47 +02:00			`"""`
			`Web scraping básico`

			`Con las librerias beautifulsoup4, lxml y requests`

			`"""`

			`import bs4`
			`import requests`

Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`# Variables`
ADD dia 11 2023-04-12 21:59:47 +02:00			`raiz = 'http://books.toscrape.com/catalogue/page-'`
			`extension = '.html'`
Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`fin_url = True`
			`page = 0`
			`lista_titulos = []`
ADD dia 11 2023-04-12 21:59:47 +02:00
Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`# Bucle para formar url y añadir a una lista`
			`while fin_url:`
ADD dia 11 2023-04-12 21:59:47 +02:00
Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`page += 1`
			`page = str(page)`
ADD dia 11 2023-04-12 21:59:47 +02:00
Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`enlace = raiz + page + extension`
ADD dia 11 2023-04-12 21:59:47 +02:00
Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`resultado = requests.get(enlace)`
			`sopa = bs4.BeautifulSoup(resultado.text, 'lxml')`
ADD dia 11 2023-04-12 21:59:47 +02:00
Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`if resultado:`
			`page = int(page)`
ADD dia 11 2023-04-12 21:59:47 +02:00
Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`# Todos los títulos`
			`titulos = sopa.select('.product_pod a')`
			`for title in titulos:`
			`if title.get('title') != None:`
			`lista_titulos.append(title.get('title'))`
ADD dia 11 2023-04-12 21:59:47 +02:00
Ejercicio web scraping webs correlativas 2023-04-12 22:36:48 +02:00			`else:`
			`fin_url = False`