WebScrapping: Problemas comunes y sus soluciones

David Hernández

Todas las páginas web están construidas con código HTML. El Web Scrapping lo que hace como técnica es obtener el código HTML de la página web de la que queremos extraer la información y procesar dicho contenido para extraer del mismo únicamente los apartados que nos interesen y de una forma lo más automatizada posible.
Pero el Scrapping no siempre es fácil, hay toda una plétora de problemas con los que nos podemos encontrar cuando intentamos extraer la información de una página web. Información que está detrás de un login, webs que se renderizan mediante javascript o APIs que intentan impedir que las consumas son algunos de los problemas con los que nos encontramos frecuentemente.
En mi trabajo como programador en Political Watch, paso gran cantidad de mi tiempo de trabajo scrappeando información. En esta charla, compartiré todas las lecciones aprendidas de mi día a día scrappeando información.

Level of experience
Beginner
Theme
Development
Drupal version
Not apply
Language
Spanish