Viniendo de una formación en ingenieria de software a veces es decepcionante ver que muchos sitios web están mal codificados y que contienen incorrecto HTML. Este artículo pretende explicar por que la creación de un buen código fuente HTML, a pesar de no ser un factor de clasificación directa, puede ayudar a los motores de búsqueda en su análisis de las páginas.
Todos los lenguajes de programación tienen reglas semánticas y sintácticas que se deben seguir para que el programa se ejecute correctamente, las secuencias de comandos HTML no es una excepción. A diferencia de lo “estricto” en los compiladores de lenguajes de programación, los navegadores web suelen ser muy “flexible” en su interpretacion de HTML, lo que muchos desarrolladores web llegan a pasar por alto el cumplimiento del codigo HTML. Desde el principio de la WWW, el W3C ha definido el lenguaje de script HTML y proporciona el validador del W3C para ayudar a los desarrolladores en la creacion de codigo compatible.
La validacion del HTML puede ser util para SEO, ya que puede esbozar errores de código como la falta de atributos alt, problemas en los elementos, etiquetas, codificación de caracteres. Una pagina web validad correctamente tendra mejor oportunidad de mostrarse de forma coherente en todos los navegadores compatibles. Para los motores de búsqueda, el tiempo de procesamiento y los recursos se guardará en la extracción de marcas y reduce la posibilidad de que el contenido se eliminarán del marcado.
El código innecesario provoca un aumento en el tiempo de carga de la página para los usuarios e incrementa el tiempo para los SE spider recorrer todo el sitio entero. Los spiders solo tienen una cierta cantidad de tiempo en un sitio durante un rastreo y cualquier cosa que se pueda hacer para reducir la cantidad de codigo por página aumentara el numero de páginas que pueden ser indexados durante ese tiempo.
Hay algunos pasos simples que pueden llevarse a cabo para asegurarse de que su código y tamaño de la página resultante sea tan pequeño como sea posible.
1.- Quite el codigo JavaScript de la principal fuente HTML en un archivo de inclusion externa.
2.- Externalizar CSS de la misma manera
3.- Usar CSS para dar formato al contenido de las etiquetas HTML en lugar de fuentes, elementos de la tabla y otro marcado.
4.- Para reducir el tiempo de carga de la página en los sitios web dinamicos, reducir la cantidad de consultas a la base de datos por página y reducir la cantidad de registros devueltos en cada consulta.
Los resultados directos de estos mátodos en la reducción de la página se puede ver usando el siguiente ejemplo de Google Webmaster Tools. Si examinamos los datos de frecuencia de rastreo de un sitio web que tiene alrededor de 3500 páginas, cada una de las que originalmente contenía varios cientos de líneas de código JavaScript y una gran cantidad de declaraciones CSS. Las páginas tambien tenian varias secciones y elementos mal definidos.
Después de la eliminacion de todo el código innecesario y corregir los errores de sintaxis HTML, estas páginas ya validadas obtuvieron al rededor del 20% del tamaño original en Kb.
Como podrás notar en el gráfico, el tiempo dedicado a la descarga de una página se ha reducido(rojo), y en consecuencia la GoogleBot ha sido capáz de rastrear mas páginas por día(azul).