El estándar de exclusión de robots tiene casi 25 años, pero los riesgos de seguridad creados por el uso incorrecto del estándar no se entienden ampliamente.
Sigue habiendo confusión sobre el propósito del estándar de exclusión de robots.
Siga leyendo para aprender cómo usarlo correctamente para evitar riesgos de seguridad y mantener sus datos confidenciales protegidos.
¿Qué es el estándar de exclusión de robots y qué es un archivo Robots.txt?
El archivo robots.txt se utiliza para indicar a los rastreadores web y otros robots bien intencionados algunas cosas sobre la estructura de un sitio web. Es abiertamente accesible y los humanos también pueden leerlo y entenderlo de forma rápida y sencilla.
El archivo robots.txt puede indicar a los rastreadores dónde encontrar el (los) archivo (s) de mapa del sitio XML, qué tan rápido puede rastrearse el sitio y (lo más famoso) qué páginas web y directorios no rastrear.
Antes de que un buen robot rastree una página web, primero verifica la existencia de un archivo robots.txt y, si existe, generalmente respeta las directivas que se encuentran dentro.
El archivo robots.txt es una de las primeras cosas que los nuevos practicantes de SEO conocen. Parece fácil de usar y potente. Este conjunto de condiciones, desafortunadamente, resulta en un uso bien intencionado pero de alto riesgo del archivo.
Para decirle a un robot que no rastree una página web o directorio, el estándar de exclusión de robots se basa en las declaraciones No permitir, en las que un robot no está permitido para acceder a las páginas.
El Robots.txt Riesgo de Seguridad
El archivo robots.txt no es una directiva rígida, es simplemente una sugerencia. Los buenos robots como Googlebot respetan las directivas del archivo.
Los robots malos, sin embargo, pueden ignorarlo completamente o peor. De hecho, algunos robots malvados y robots de prueba de penetración buscan específicamente archivos robots.txt con el único propósito de visitar las secciones de sitios no permitidos.
Si un actor villano, ya sea humano o robot, está tratando de encontrar información privada o confidencial en un sitio web, la lista de rechazo del archivo robots.txt puede servir como un mapa. Es el primer lugar, el más obvio para mirar.
De esta manera, si un administrador del sitio cree que está utilizando el archivo robots.txt para asegurar su contenido y mantener las páginas privadas, es probable que estén ha
…Para leer más, siga el link del idioma que prefiera
Tags: seguridad, seo, contenido