From 428e4a04004c610eda44910cdca6d73370d442b2 Mon Sep 17 00:00:00 2001 From: Manuel Vergara Date: Sat, 20 May 2023 10:26:31 +0200 Subject: [PATCH] Update README day 11 Signed-off-by: Manuel Vergara --- python-total/dia_11/README.md | 26 ++++++++++++++++++++++++++ 1 file changed, 26 insertions(+) diff --git a/python-total/dia_11/README.md b/python-total/dia_11/README.md index 1c4a842..66c0d50 100644 --- a/python-total/dia_11/README.md +++ b/python-total/dia_11/README.md @@ -1,5 +1,19 @@ +**A partir de este tema la mayoría son ejercicios prácticos. Como has visto hasta ahora, el código está documentado y es una buena fuente de apuntes.** + # Día 11 - Programa un extracto de datos web +Web scraping = raspar internet +- Reglas del web scraping +- Limitaciones del web scraping + +Se utilizarán tres bibliotecas: beautifulsoup4, lxml y requests. Se deben instalar: +```python +pip install beautifulsoup4 +pip install requests +``` + +Enlace: https://escueladirecta-blog.blogspot.com/ + ## Índice - [Día 11 - Programa un extracto de datos web](#día-11---programa-un-extracto-de-datos-web) - [Índice](#índice) @@ -8,6 +22,18 @@ ## 11.1. - Extraer elementos de una clase +| Carácter | Sintaxis | Resultados | +| :-------: | :---------------------------: | :----------------------------------------------------------------------------------------------- | +| " | `soup.select('div')` | Todos los elementos con la etiqueta 'div' | +| # | `soup.select('#estilo_4')` | Elementos que contengan id='estilo4' | +| . | `soup.select('.columna_der')` | Elementos que contengan class='columna der' | +| (ESPACIO) | `soup.select('div span')` | Cualquier elemento llamado 'span' dentro de un elemento 'div' | +| > | `soup.select('div>span')` | Cualquier elemento llamado 'span' directamente dentro de un elemento 'div', sin nada en el medio | + +Enlace: https://www.escueladirecta.com/courses + +Enlace: https://toscrape.com/ + ## Ficheros y documentación - [01_web_scraping_01.py](01_web_scraping_01.py) - [02_web_scraping_02.py](02_web_scraping_02.py)