Curso-lenguaje-python/python-total/dia_11
Manuel Vergara 428e4a0400 Update README day 11
Signed-off-by: Manuel Vergara <manuel@vergaracarmona.es>
2023-05-20 10:26:31 +02:00
..
01_web_scraping_01.py Restructure content and add notes from HolaMundo 2023-05-20 09:36:26 +02:00
02_web_scraping_02.py Restructure content and add notes from HolaMundo 2023-05-20 09:36:26 +02:00
mi_imagen.jpg Restructure content and add notes from HolaMundo 2023-05-20 09:36:26 +02:00
nul Restructure content and add notes from HolaMundo 2023-05-20 09:36:26 +02:00
programa_web_scraping.py Restructure content and add notes from HolaMundo 2023-05-20 09:36:26 +02:00
README.md Update README day 11 2023-05-20 10:26:31 +02:00

A partir de este tema la mayoría son ejercicios prácticos. Como has visto hasta ahora, el código está documentado y es una buena fuente de apuntes.

Día 11 - Programa un extracto de datos web

Web scraping = raspar internet

  • Reglas del web scraping
  • Limitaciones del web scraping

Se utilizarán tres bibliotecas: beautifulsoup4, lxml y requests. Se deben instalar:

pip install beautifulsoup4
pip install requests

Enlace: https://escueladirecta-blog.blogspot.com/

Índice

11.1. - Extraer elementos de una clase

Carácter Sintaxis Resultados
" soup.select('div') Todos los elementos con la etiqueta 'div'
# soup.select('#estilo_4') Elementos que contengan id='estilo4'
. soup.select('.columna_der') Elementos que contengan class='columna der'
(ESPACIO) soup.select('div span') Cualquier elemento llamado 'span' dentro de un elemento 'div'
> soup.select('div>span') Cualquier elemento llamado 'span' directamente dentro de un elemento 'div', sin nada en el medio

Enlace: https://www.escueladirecta.com/courses

Enlace: https://toscrape.com/

Ficheros y documentación

Documentación del día


Enlaces a todos los días: dia 1 - creador de nombres / dia 2 - calculador de comisiones / dia 3 - analizador de texto / dia 4 - juego "adivina el número" / dia 5 - juego "El ahorcado" / dia 6 - recetario / dia 7 - cuenta bancaria / dia 8 - consola de turnos / dia 9 - buscador de números de serie / dia 10 - juego "Invasión espacial" / dia 11 - web scraping / dia 12 - gestor de restaurantes / dia 13 - asistente de voz / dia 14 - controlador de asistencia / dia 15 - machine learning / dia 16 - aplicación web de tareas pendientes