|
||
---|---|---|
.. | ||
01_web_scraping_01.py | ||
02_web_scraping_02.py | ||
mi_imagen.jpg | ||
nul | ||
programa_web_scraping.py | ||
README.md |
A partir de este tema la mayoría son ejercicios prácticos. Como has visto hasta ahora, el código está documentado y es una buena fuente de apuntes.
Día 11 - Programa un extracto de datos web
Web scraping = raspar internet
- Reglas del web scraping
- Limitaciones del web scraping
Se utilizarán tres bibliotecas: beautifulsoup4, lxml y requests. Se deben instalar:
pip install beautifulsoup4
pip install requests
Enlace: https://escueladirecta-blog.blogspot.com/
Índice
11.1. - Extraer elementos de una clase
Carácter | Sintaxis | Resultados |
---|---|---|
" | soup.select('div') |
Todos los elementos con la etiqueta 'div' |
# | soup.select('#estilo_4') |
Elementos que contengan id='estilo4' |
. | soup.select('.columna_der') |
Elementos que contengan class='columna der' |
(ESPACIO) | soup.select('div span') |
Cualquier elemento llamado 'span' dentro de un elemento 'div' |
> | soup.select('div>span') |
Cualquier elemento llamado 'span' directamente dentro de un elemento 'div', sin nada en el medio |
Enlace: https://www.escueladirecta.com/courses
Enlace: https://toscrape.com/
Ficheros y documentación
Enlaces a todos los días: dia 1 - creador de nombres / dia 2 - calculador de comisiones / dia 3 - analizador de texto / dia 4 - juego "adivina el número" / dia 5 - juego "El ahorcado" / dia 6 - recetario / dia 7 - cuenta bancaria / dia 8 - consola de turnos / dia 9 - buscador de números de serie / dia 10 - juego "Invasión espacial" / dia 11 - web scraping / dia 12 - gestor de restaurantes / dia 13 - asistente de voz / dia 14 - controlador de asistencia / dia 15 - machine learning / dia 16 - aplicación web de tareas pendientes