15 de febrero de 2019

:: Extraer las páginas indexadas de un portal web

Aunque la manera más habitual para extraer las páginas indexadas de un portal web es recurrir a Google y ejecutar lo siguiente, existen otras opciones:

site:dominio
Si necesitamos extraer un listado con las url's indexadas, podemos optar por estas alternativas:

Utilizar un servicio externo

Existe una web en la que -indicando el dominio- nos devuelve un listado de las url indexadas http://intavant.com/tools/google-indexed-pages-extractor/

Utilizar extensiones

Podemos realizar los siguientes pasos, haciendo uso de una serie de extensiones para obtener este listado:
2.1.- Instalar la extensión "ginfinity" que nos mostrará un scroll infinito. Existe otra extensión denominada: Scrollsearch
2.2.- En Chrome ejecutamos: "site:dominio"
2.3.- Accedemos a ajustes de Chromey seleccionamos que nos muestre 100 resultados por página
2.4.- Instalamos la extensión: "linkklipper" que nos permitirá extraer la relación de url's de un sitio web
2.5.- En la configuración de esta extensión, indicamos la expresión regular que necesitemos
y pulsamos sobre el botón: "Extraer todos los enlaces"


Tras obtener el listado de url, por ejemplo en formato CSV, tendremos que filtrar estas.

No hay comentarios:

Publicar un comentario

Déjanos tu comentario

:: Liferay. Redirección tras el login

En Liferay 7.4 para llevar a cabo una redirección tras el login, debemos insertar la siguiente línea en el fichero: " portal-ext.proper...