Scraping sin hacer scraping PyConES 2023

Scraping sin hacer scraping
.ical
07/10/2023 12:15–12:50, Bollullo (Aula Magna)
Idioma: Español

El scraping "bueno" tiene más de reverse engineering que de selectores CSS. En esta charla veremos técnicas para hacer scraping y evitar ser detectados que uso o he usado en mi actual trabajo en theirstack.com o en anteriores trabajos. Por ejemplo:
- Por dónde empezar. Ética, robots.txt y sitemaps
- Cómo encontrar la documentación de una API que no es pública.
- Cómo obtener datos de motores de búsqueda
- Por qué ponernos contentos cuando vemos un scroll infinito
- Cómo seguir usando la API de Twitter sin pagar
- Cómo evitar que bloqueen nuestra IP
- Cómo saltarnos sistemas antibot como Datadome y similares
- Qué tipos de proxies existen
- Cómo obtener API keys descompilando aplicaciones móviles
- Por qué sistemas como Algolia son muy interesantes
- Cómo usar GraphQL introspection para ver qué datos podemos sacar
- Cómo montar nuestro propio proxy móvil

Los slides de la charla se pueden ver en https://bit.ly/pycones-scraping

Temática: Ingeniería de Datos Nivel de la propuesta: Intermedia (es necesario entender las bases relacionadas para entrar en detalle)

Xoel López Barata

Founder at TheirStack.com. Likes interesting problems and helping people achieve more. Also likes surfing and the ocean.

Scraping sin hacer scraping .ical 07/10/2023 12:15–12:50, Bollullo (Aula Magna) Idioma: Español

Scraping sin hacer scraping
.ical
07/10/2023 12:15–12:50, Bollullo (Aula Magna)
Idioma: Español