PyConES 2023

Scraping sin hacer scraping
07/10/2023 , Bollullo (Aula Magna)
Idioma: Español

El scraping "bueno" tiene más de reverse engineering que de selectores CSS. En esta charla veremos técnicas para hacer scraping y evitar ser detectados que uso o he usado en mi actual trabajo en theirstack.com o en anteriores trabajos. Por ejemplo:
- Por dónde empezar. Ética, robots.txt y sitemaps
- Cómo encontrar la documentación de una API que no es pública.
- Cómo obtener datos de motores de búsqueda
- Por qué ponernos contentos cuando vemos un scroll infinito
- Cómo seguir usando la API de Twitter sin pagar
- Cómo evitar que bloqueen nuestra IP
- Cómo saltarnos sistemas antibot como Datadome y similares
- Qué tipos de proxies existen
- Cómo obtener API keys descompilando aplicaciones móviles
- Por qué sistemas como Algolia son muy interesantes
- Cómo usar GraphQL introspection para ver qué datos podemos sacar
- Cómo montar nuestro propio proxy móvil

Los slides de la charla se pueden ver en https://bit.ly/pycones-scraping


Temática:

Data Engineering

Nivel de la propuesta:

Intermediate (it is necessary to understand the related bases to go into detail)

Founder at TheirStack.com. Likes interesting problems and helping people achieve more. Also likes surfing and the ocean.