Linked Open Data

¿Por qué aún no se ha desplegado la Web Semántica?

Todos queremos respuestas precisas y acertadas a cualquiera de las consultas que hagamos a los buscadores. Esta es la visión que los científicos y técnicos que siguen investigando la Web tienen en mente. Nos gustaría desterrar los listados de resultados para obtener una única respuesta válida y apoyada en datos de autoridad.

Y el nombre de esa visión es Web Semántica que, de forma concisa, consiste en proporcionar más información dentro de los documentos publicados en la Web para que sean entendidos mejor por las máquinas (robots buscadores) y, de esta forma, los procesen y clasifiquen mejor y así nos ofrezcan mejores respuestas.

Pero, algo tan sencillo de explicar no está siendo nada fácil de llevar a cabo, pues, supone cambiar la forma en que los documentos están ahora dispuestos en la red. E incluso, aunque a partir de hoy todo se hiciera bien, habría que transformar toda la información existente desde 1989 hasta ahora: un trabajo descomunal.

Efectivamente las bases existen desde inicios del siglo XXI: estándares para describir ámbitos de conocimiento con ontologías (OWL); especificaciones para señalar relaciones entre objetos y cuál es su relación (RDF); nodos especializados en la gestión de datos (GeoNames para datos geográficos; DBPedia como nodo central; etc.); Y multitud de vocabularios públicos que permiten dar una relación única a un concepto mediante un enlace inequívoco (URI).

Bien. Los mimbres están. Pero qué está fallando, Pues algo difícil de cambiar por las instituciones de investigación y normalizadores. El modo en el que se siguen construyendo la gran mayoría de las webs: los gestores de contenido no están preparados.

Pensemos en cualquiera de los más extendidos: WordPress, Joomla, Drupal. Como mucho tienen pequeñas extensiones, no siempre funcionales, que permiten crear algún dato enlazado con un conjunto mínimo de vocabularios. Pero necesitan mucho esfuerzo por parte del editor y no son nada cómodos de utilizar.

Lo ideal sería que el gestor de contenidos rastreara el texto que estoy escribiendo y me propusiera una serie de conceptos para cada palabra importante del texto de forma que decidiera con un clic si lo enlazo con un concepto o  no. Por ejemplo, si escribo esta frase: El arte románico de la provincia de Burgos tiene su culmen en San Pedro de Tejada, el gestor de contenidos inteligente me debería de proponer al menos tres datos enlazados: uno al concepto arte románico (por ejemplo en DBPedia); otro al concepto provincia de Burgos (en este caso a Geonames); y un tercero a San Pedro de Tejada (por ejemplo en Wikidata). De este modo, internamente, la frase estaría perfectamente descrita desde el punto de vista semántico para los rastreadores y analizadores de la web.

Ante la inexistencia de este tipo de comportamiento en los gestores de contenido, los grandes buscadores (Google, Bing, Yahoo y Yandex) idearon el llamado marcado semántico creando la especificación schema.org. Es un intento de clasificar aquello que más se publica en la Web de forma sencilla e inteligible para todos los buscadores. Este marcado semántico sí está más extendido en los gestores de contenidos pero, por supuesto, no es igual de potente que la Web semántica.

Concluyendo: El proceso de creación de la Web Semántica está siendo mucho más lento de lo esperado y lo seguirá siendo mientras no cambien los gestores de contenido y nos faciliten la creación de datos enlazados.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.