¿Qué NO hacer para que los buscadores indexen el contenido de los repositorios?

Kat Hagedorn y Josh Santelli utilizaron el corpus de metadatos de OAIster (978 repositorios compuestos por 16.276.756 registros) para determinar qué porcentaje de este corpus es indexado por Google y publicaron los resultados en D-Lib Magazine. De acuerdo a este estudio solo el 44.35% de los registros fue encontrado en Google. Kat y Josh concluyen que Google no está preocupado en mejorar la cobertura de repositorios que usan OAI-PMH.

¿Qué hacer para no quedarnos afuera de Google y otros buscadores?

Peter Millington de SHERPA compiló una lista de lo que no hay que hacer si queremos que los contenidos de los repositorios se puedan encontrar en Google y demás buscadores:

  1. Requerir a todos los usuarios tengan usuario y contraseña:Los buscadores quedan fuera y los usuarios se van si se les requiere usuario para buscar o leer los documentos.

  2. No tener interfase de navegación con links entre páginas: de este modo los buscadores indexan la primer página solamente.

  3. Utilizar tags que impiden el rastreo de los buscadores:los buscadores pueden encontrar los repositorios, pero si se les dá una orden de no indexar, no lo harán.

  4. Restringir el acceso a determinados textos: si hay textos restringidos con usuario y contraseña, los buscadores no podrán indexar el texto completo, solamente los metadatos.

  5. Aceptar PDFs restrictivos o de baja calidad: Los buscadores tienen dificultad para indexar PDFs de baja calidad o que utilizan algún mecanismo para restringir su uso (por ejemplo el copiado y pegado).

  6. Ocular la URL OAI: Si los cosechadores no pueden encontrar la URL OAI base no podrán recuperar los documentos en el repositorio.

  7. Utilizar URLs oscuras: Muchos buscadores y firewalls rechazan URLs numéricas, URLs que utilizan «https:» en lugar de «http:», URLs que incluyen números de puerto inusuales.

El Proyecto de Apoyo a Repositorios amplía esta información y ofrece una serie de consejos para mejorar la presencia en los buscadores.

La optimización de nuestros repositorios para la recuperación los documentos a través de buscadores y recolectores es vital para lograr un objetivo fundamental de éstos: aumentar y mejorar el acceso a la informción científica y académica.