Xoel López Barata
Founder at TheirStack.com. Likes interesting problems and helping people achieve more. Also likes surfing and the ocean.
Session
El scraping "bueno" tiene más de reverse engineering que de selectores CSS. En esta charla veremos técnicas para hacer scraping y evitar ser detectados que uso o he usado en mi actual trabajo en theirstack.com o en anteriores trabajos. Por ejemplo:
- Por dónde empezar. Ética, robots.txt y sitemaps
- Cómo encontrar la documentación de una API que no es pública.
- Cómo obtener datos de motores de búsqueda
- Por qué ponernos contentos cuando vemos un scroll infinito
- Cómo seguir usando la API de Twitter sin pagar
- Cómo evitar que bloqueen nuestra IP
- Cómo saltarnos sistemas antibot como Datadome y similares
- Qué tipos de proxies existen
- Cómo obtener API keys descompilando aplicaciones móviles
- Por qué sistemas como Algolia son muy interesantes
- Cómo usar GraphQL introspection para ver qué datos podemos sacar
- Cómo montar nuestro propio proxy móvil
Los slides de la charla se pueden ver en https://bit.ly/pycones-scraping