Ejercicio web scraping webs correlativas

This commit is contained in:
Manuel Vergara 2023-04-12 22:36:48 +02:00
parent 57bf0e8777
commit c681de5c61

View File

@ -8,40 +8,32 @@ Con las librerias beautifulsoup4, lxml y requests
import bs4 import bs4
import requests import requests
# Variables
raiz = 'http://books.toscrape.com/catalogue/page-' raiz = 'http://books.toscrape.com/catalogue/page-'
extension = '.html' extension = '.html'
fin_url = True
page = 0
lista_titulos = []
# Bucle para formar url y añadir a una lista
def comprobar_enlaces(http, ext): while fin_url:
""" Comprobar si el enlace existe """
# Variables
enlaces = []
fin_url = True
page = 0
# Bucle para formar url y añadir a una lista
while fin_url:
page += 1 page += 1
page = str(page) page = str(page)
enlace = http + page + ext enlace = raiz + page + extension
resultado = requests.get(enlace) resultado = requests.get(enlace)
sopa = bs4.BeautifulSoup(resultado.text, 'lxml')
if resultado: if resultado:
enlaces.append(enlace)
page = int(page) page = int(page)
# BORRAR CUANDO ESTE LISTO EL RESTO DEL DOCUMENTO
break # Todos los títulos
titulos = sopa.select('.product_pod a')
for title in titulos:
if title.get('title') != None:
lista_titulos.append(title.get('title'))
else: else:
fin_url = False fin_url = False
return enlaces
print(comprobar_enlaces(raiz, extension))
# sopa = bs4.BeautifulSoup(resultado.text, 'lxml')