15 de febrero de 2019

:: Extraer las páginas indexadas de un portal web

Aunque la manera más habitual para extraer las páginas indexadas de un portal web es recurrir a Google y ejecutar lo siguiente, existen otras opciones:

site:dominio
Si necesitamos extraer un listado con las url's indexadas, podemos optar por estas alternativas:

Utilizar un servicio externo

Existe una web en la que -indicando el dominio- nos devuelve un listado de las url indexadas http://intavant.com/tools/google-indexed-pages-extractor/

Utilizar extensiones

Podemos realizar los siguientes pasos, haciendo uso de una serie de extensiones para obtener este listado:
2.1.- Instalar la extensión "ginfinity" que nos mostrará un scroll infinito. Existe otra extensión denominada: Scrollsearch
2.2.- En Chrome ejecutamos: "site:dominio"
2.3.- Accedemos a ajustes de Chromey seleccionamos que nos muestre 100 resultados por página
2.4.- Instalamos la extensión: "linkklipper" que nos permitirá extraer la relación de url's de un sitio web
2.5.- En la configuración de esta extensión, indicamos la expresión regular que necesitemos
y pulsamos sobre el botón: "Extraer todos los enlaces"


Tras obtener el listado de url, por ejemplo en formato CSV, tendremos que filtrar estas.

No hay comentarios:

Publicar un comentario

Déjanos tu comentario

:: Cookies de nuestra página web. ¿Para qué sirve cada una?

A menudo una pregunta que nos hacen es qué cookies se están utilizando en mi página y para qué sirven. Para ver las cookies, podemos selecci...