07/10/2023 –, Bollullo (Aula Magna)
Idioma: Español
El scraping "bueno" tiene más de reverse engineering que de selectores CSS. En esta charla veremos técnicas para hacer scraping y evitar ser detectados que uso o he usado en mi actual trabajo en theirstack.com o en anteriores trabajos. Por ejemplo:
- Por dónde empezar. Ética, robots.txt y sitemaps
- Cómo encontrar la documentación de una API que no es pública.
- Cómo obtener datos de motores de búsqueda
- Por qué ponernos contentos cuando vemos un scroll infinito
- Cómo seguir usando la API de Twitter sin pagar
- Cómo evitar que bloqueen nuestra IP
- Cómo saltarnos sistemas antibot como Datadome y similares
- Qué tipos de proxies existen
- Cómo obtener API keys descompilando aplicaciones móviles
- Por qué sistemas como Algolia son muy interesantes
- Cómo usar GraphQL introspection para ver qué datos podemos sacar
- Cómo montar nuestro propio proxy móvil
Los slides de la charla se pueden ver en https://bit.ly/pycones-scraping
Data Engineering
Nivel de la propuesta:Intermediate (it is necessary to understand the related bases to go into detail)
Founder at TheirStack.com. Likes interesting problems and helping people achieve more. Also likes surfing and the ocean.