2023-05-20 10:26:31 +02:00
**A partir de este tema la mayoría son ejercicios prácticos. Como has visto hasta ahora, el código está documentado y es una buena fuente de apuntes.**
2023-05-19 01:34:00 +02:00
# Día 11 - Programa un extracto de datos web
2023-05-20 10:26:31 +02:00
Web scraping = raspar internet
- Reglas del web scraping
- Limitaciones del web scraping
Se utilizarán tres bibliotecas: beautifulsoup4, lxml y requests. Se deben instalar:
```python
pip install beautifulsoup4
pip install requests
```
Enlace: https://escueladirecta-blog.blogspot.com/
2023-05-19 01:34:00 +02:00
## Índice
- [Día 11 - Programa un extracto de datos web ](#día-11---programa-un-extracto-de-datos-web )
- [Índice ](#índice )
- [11.1. - Extraer elementos de una clase ](#111---extraer-elementos-de-una-clase )
- [Ficheros y documentación ](#ficheros-y-documentación )
## 11.1. - Extraer elementos de una clase
2023-05-20 10:26:31 +02:00
| Carácter | Sintaxis | Resultados |
| :-------: | :---------------------------: | :----------------------------------------------------------------------------------------------- |
| " | `soup.select('div')` | Todos los elementos con la etiqueta 'div' |
| # | `soup.select('#estilo_4')` | Elementos que contengan id='estilo4' |
| . | `soup.select('.columna_der')` | Elementos que contengan class='columna der' |
| (ESPACIO) | `soup.select('div span')` | Cualquier elemento llamado 'span' dentro de un elemento 'div' |
| > | `soup.select('div>span')` | Cualquier elemento llamado 'span' directamente dentro de un elemento 'div', sin nada en el medio |
Enlace: https://www.escueladirecta.com/courses
Enlace: https://toscrape.com/
2023-05-19 01:34:00 +02:00
## Ficheros y documentación
- [01_web_scraping_01.py ](01_web_scraping_01.py )
- [02_web_scraping_02.py ](02_web_scraping_02.py )
- [mi_imagen.jpg ](mi_imagen.jpg )
- [programa_web_scraping.py ](programa_web_scraping.py )
2023-05-19 22:31:55 +02:00
[Documentación del día ](../doc_curso/11_web_scraping/ )
---
Enlaces a todos los días: [dia 1 - creador de nombres ](../dia_01/README.md ) / [dia 2 - calculador de comisiones ](../dia_02/README.md ) / [dia 3 - analizador de texto ](../dia_03/README.md ) / [dia 4 - juego "adivina el número" ](../dia_04/README.md ) / [dia 5 - juego "El ahorcado" ](../dia_05/README.md ) / [dia 6 - recetario ](../dia_06/README.md ) / [dia 7 - cuenta bancaria ](../dia_07/README.md ) / [dia 8 - consola de turnos ](../dia_08/README.md ) / [dia 9 - buscador de números de serie ](../dia_09/README.md ) / [dia 10 - juego "Invasión espacial" ](../dia_10/README.md ) / [dia 11 - web scraping ](../dia_11/README.md ) / [dia 12 - gestor de restaurantes ](../dia_12/README.md ) / [dia 13 - asistente de voz ](../dia_13/README.md ) / [dia 14 - controlador de asistencia ](../dia_14/README.md ) / [dia 15 - machine learning ](../dia_15/README.md ) / [dia 16 - aplicación web de tareas pendientes ](../dia_16/README.md )