Cargando



Web Scraping: Formas de extraer datos Web

En este tutorial conocerás de forma completa qué significa hacer Web Scraping. La variedad de herramientas disponibles para hacer este tipo de trabajo y cuál es la manera correcta de elegirlo y realizarlo.


may 08 2016 00:26
Profesional
may 08 2016 00:30

Google Spreadsheets

 

imagen2.jpg

 

Se trata de un servicio en línea de hojas de cálculo, realizado en tecnología AJAX. Por medio de esta herramienta, se puede realizar la mayoría de las funciones que dejan las aplicaciones de hojas de cálculos de los programas ofimáticos; como realizar operaciones entre celdas con diferentes tipos de funciones (matemáticas, financieras, lógicas, de fechas, de búsquedas, estadísticas, con cadenas e informativas), ordenar columnas, manejar diferentes hojas dentro de cada fichero, manejar ficheros del tipo xls y csv, etc.

 

Dentro de este servicio existe una sencilla fórmula que puedes utilizar para tomar los datos de una tabla de una página web y llevarlos a una hoja de cálculo en Google Docs.

 

La fórmula es la siguiente:

=importHTML("URL";"tabla";N)
Y se desglosa de la siguiente forma: En primer lugar debes indicar la URL de la página Web de destino y el elemento de tabla de destino entre comillas dobles (“ ”). El número N identifica tanto la tabla N-sima en la página Web (el conteo comienza en 1) como la tabla de destino para el scraping de datos. Es probable que te tome un tiempo descubrir cuál es el valor que debes indicar en N; ya que debes ir probándolos (1, 2, 3, etc.) empezando desde 1 hasta conseguir importar la tabla deseada.

 

Pongamos en práctica el primer ejemplo. Extraigamos los datos de la agenda de los partidos del Real Madrid para estar al día, que por cierto es el mejor equipo del mundo.

 

Antes que nada, debes ingresar al sitio web donde se encuentra la información requerida, en este caso sería:

 

http://www.realmadri...l-madrid/agenda

 

 

En este caso, lo que debemos hacer es ir al Drive de nuestra cuenta en Google:

 

Paso 1


Crea un documento Hojas de Cálculo de Google y dale un nombre. Por ejemplo, Scraping Web.

 

 

 

 

Paso 2


En el área de formula del documento escribe la fórmula con los datos como sigue:
=importHTML(“http://www.realmadrid.com/sobre-el-real-madrid/agenda”;”table";1)
El resultado es una hoja de cálculo con data manipulable en segundos:

 

 

 

 

Lo mejor de aplicar esta técnica es que si los datos del HTML se actualizan, los datos en la hoja de cálculo también lo harán siempre y cuando el archivo en Excel se encuentre en línea mediante Google Docs.

 


¿Te ayudó este Tutorial?


Sin comentarios, sé el primero!

No esperes más y entra en Solvetic
Deja tus comentarios y aprovecha las ventajas de la cuenta de usuario ¡Únete!

X