Pila semantica web: ¿Cómo digerir la visión semántica Web?
En el artículo anterior presenté la historia sobre el nacimiento y el desarrollo de la Web Semántica. No es ningún secreto que, por su potencial todavía hay algo que falta. Se podría hablar por mucho tiempo sobre lo que ha sucedido, que después de 20 años desde que comenzó la Web, todavía no se parece a lo que Sir Tim Berners-Lee (foto de abajo) tenía en mente.
Una forma de presentar la visión de desarrollo de Web 3.0, en realidad la Web Semántica para ser precisos, es analizar la llamada Pila Semántica Web, que muestra una pila de tecnologías y normas necesarias para crear un completamente funcional de la Web Semántica.Uno de su primera versión (que se muestra en el 2002 por TBL) fue el siguiente:

Semantic Web Layer Cake (2002) Source: http://www.w3.org/2002/Talks/04-sweb/slide12-0.html
Los fundamentos de la Web Semántica se basan en dos tecnologías: URI (Uniform Resource Identifier) y Unicode, sino que nos permiten identificar e indicar cualquier contenido u objeto (no sólo en línea) y se describen en cualquier idioma. Un URI es similar a una dirección URL (Uniform Resource Locator) de direcciones, que se utilizan a diario en Internet; URI, sin embargo, es permitido (al menos teóricamente) para indicar los objetos del mundo real, y por lo tanto se utiliza para describir y para vincularlos a los documentos en Internet. Unicode es un juego de caracteres utilizados para escribir en todos los alfabetos que se conocen.
La segunda capa es una norma actualmente muy popular que se conoce como XML, y también el espacio de nombres denominado relacionados con ella. Con XML es posible guardar la información, de modo que una máquina podría procesarlo (pero no interpretarlo). En un próximo artículo trataremos de explicar por qué la introducción de la capa de XML para el pastel "semántica" no era tan buena idea.
Una tercera capa se define como RDF (Resource Description Framework), que es una norma intrínsecamente vinculado a la Web Semántica. A diferencia de XML, que permite crear un grafo (dirigido) en una forma procesable por las máquinas, sobre la base de la información almacenada en estas gráficas de relaciones significativas (es decir, la semántica) una máquina puede tratar de comprender el contenido real.
Y las dos siguientes capas? Para ayudar al proceso de la "comprensión" de la información almacenada en RDF, las próximas dos capas se utilizan para definir los términos utilizados en la descripción de un grafo de RDF. Sí, acertaste: todo es acerca de las infames "ontologías" (que viene en los siguientes artículos). El esquema RDF puede utilizarse para definir una ontología sencilla usando una jerarquía de clases y propiedades, pero estas clases y propiedades no tienen nada que ver con la programación orientada a objetos (POO) además de compartir el mismo nombre. Vamos a discutir esta cuestión en un próximo artículo.
La capa de sesiones, las reglas, permite definir (en las lenguas oficiales como RIF) las normas para el procesamiento de los conocimientos se almacenan en RDF y ontologías. Junto con los marcos de la lógica de las normas permitirá a las máquinas para entender la información, en lugar de limitarse a proceso.
Las dos primeras capas son necesarias para garantizar la autonomía de las máquinas en el procesamiento de información y toma de decisiones en nombre de sus propietarios. Sin embargo, esto requiere un mecanismo formal de entrega de pruebas (que es conocido como la prueba) de que el proceso de razonamiento es correcto, además de un modo de determinar un nivel de confianza en el proceso de razonamiento (llamado confianza).
Los otros dos elementos, las firmas digitales y el cifrado, se garantiza la seguridad de la Web Semántica.
¡Uf, un montón de capas, y peor aún: todos ellos con un montón de especificaciones, recomendaciones y normas. Afortunadamente, a lo largo de los años hemos logrado cambiar esta visión en realidad, al menos en parte.
En los últimos años, la "Web Semántica Layer Cake" ha evolucionado junto con las implementaciones de las capas sucesivas. Ya dos años después el diagrama inicial había sido publicado, TBL fue añadido una capa adicional: consultas y esquemas XML. También hubo la primera herramienta (Annotea), diccionarios (P3P, CC / PP) y de normalización (Dublin Core, RSS) que implementan las capas inferiores de la torta:

Another version of the semantic cake (2004) http://www.w3.org/2004/Talks/0412-RDF-functions/slide4-0.html
La versión actual de la torta contiene principalmente las especificaciones que se han convertido en estándares del W3C que implementan las diferentes capas: OWL (Web Ontology Language), RIF (Rule Interchange Format), SPARQL (lenguaje de consulta para RDF). Es importante que las ontologías, las reglas y la lógica se han convertido en una capa única de facto. Además, el papel de XML ha sido limitada, ya que en la Web Semántica podemos manejar las cosas sin las restricciones impuestas por XML. También hay una capa nueva de entrega: UI (User Interface) y aplicaciones. Además, la identificación de objetos es ahora posible mediante el IRI (Internationalized Resource Identifier) estándar que extiende URI con la capacidad de utilizar los caracteres ASCII no estándar para codificar el identificador de objeto.
Hasta hace poco, todo el énfasis en el ámbito de la investigación de la Web Semántica se centró en comprender el significado del contenido por las máquinas. Gracias al éxito de la Web 2.0, entendimos la necesidad e importancia de la interacción humana con los sistemas informáticos que utilizan técnicas de sistemas semánticos.
Por último, la guinda del pastel semántica es la versión en 3D de Benjamin Nowack. Lo importante aquí es el nuevo elemento en la pila de tecnologías semánticas: los datos vinculados. Son extremadamente importantes para el éxito de la Web 3.0: sin semántica, es decir, vinculada, los datos (a menudo a disposición del público), sin mecanismos de razonamiento no se puede hacer nada.

Semantic cake in 3D, together with related data http://bnode.org/blog/2009/07/08/the-semantic-web-not-a-piece-of-cake
Una breve reseña de la web – Que tan viejo es la Web 3.0?
Cuando pienso en agregar otro numero despues del termino Web I get shivers on my spine. No les pasa lo mismo? Bien, es complicado pero hemos usado el concepto de Web 2.0 inventado por Tim O'Reilly. Pero Web 3.0? A veces escucho argumentos como: Gente paren esta locura!. Recien estamos implementado soluciones Web 2.0 en nuestra empresa. La tecnologia esta avanzando tan rapido?
Bueno, pero antes de entrar en "guerra santa" por el termino Web 3.0, vamos a tratar de determinar que tan "viejo" es:
- Web 3.0 no existe todavía, es sólo un sueño de los investigadores, y al igual que la inteligencia artificial nunca se convertirá en una tecnología de uso común. Es cierto que hay algo desarrollado - pero no tropezamos con los sitios Web 3.0 todos los días. Twine, digi.me, o incluso la reciente ampliación de Facebook no prueban nada. O lo hacen?
- Web 3.0 tiene sólo 6 meses de edad - en marzo de 2009, durante las celebraciones del 20 aniversario de la Web, su creador, Sir Tim Berners-Lee, ha anunciado que ya tenemos todos los mecanismos y tecnologías necesarias para construir la tercera generación de Internet ( o la Web 3.0 en la ausencia de un término mejor). Bueno, eso es algo, pero realmente no había nada antes de eso?
- Web 3.0 es realmente sobre la Web Semántica, por lo que debe estar alrededor de 9 años de edad - en 2001, Sir Tim Berners-Lee, James Handler y Ora Lassila publicaron un famoso artículo en Scientific American. Esperen un momento..., pero si la Web 3.0 es tan "vieja" como la Web Semántica, entonces el termino es mas antiguo que la Web 2.0. Hay algo que huele raro aquí, ¿verdad?
Olvidé mencionar que en algunos institutos científicos que habían tratado de lograr lo que realmente debe ser la Web Semántica durante demasiado tiempo; se ha perdido tiempo investigando y desarrollando aplicaciones avanzadas (Descripción lógica o semántica de servicios Web). Mientras tanto, las tecnologías sociales se han vuelto tan populares que la Web Semántica se ha vuelto en Web Semántica social y se requirió de un dígito posterior en la etiqueta. Bien, entonces la Web 3.0 puede ser aún mas antiguo?? - Web Semántica ya existía en el año 2000. ¿Por qué? Porque ahí es cuando la primera descripción de ontologías - en el DAML (El DARPA Agent Markup Language) - se publicó. Es cierto que eso es evidencia bastante concreta, sobre todo porque DARPA lo respalda. Bueno, pero si en el año 2000 tuvimos la primera ontología, deberia haber algo anterior!
- Un año antes, en 1999, Stefan Decker (et al) publicó los resultados de la investigación sobre OntoBroker, que fue la base para la creación de DAML. En el mismo año, el W3C publicó la recomendación para el estándar RDF, y más tarde la recomendación para el Schema RDF. Y eso es todo? ¡No!
- En 1995, la organización DublinCore celebraron su primer taller. Cualquiera que haya comenzado un interés en las tecnologías semánticas golpeó primero con el esquema de Dublin Core. En ese momento no era una ontología como tal, la organización de Dublin Core, derivada de la comunidad bibliotecaria (digital) durante muchos años considerado a DublinCore un XML en lugar de un estándar RDF. Sin embargo, Dublin Core es todavía uno de los esquemas más utilizados del dominio Semantico Web e incluso más allá. Bueno, vamos a seguir adelante, ya que resulta que la Web 3.0 es tan antigua como la propia web! ... ¿Cómo lo sabemos?
- En 1989 (hace 21 años!) Sir Tim Berners-Lee (TBL), un consultor para el CERN en aquella época, dio vida a algo sin lo cual no podemos imaginar la lectura de este blog ... creó la Web. Bueno, sí, pero la web era en realidad un conjunto de páginas HTML e hipervínculos que tejen la WWW. ¿Y dónde están la semántica? Bueno, la Web se suponía que era algo más desde el principio que un conjunto de páginas enlazadas. Aquí está la prueba: la Web como TBL lo vi hace 21 años:
En otras palabras, Sir Tim Berners-Lee ya habia pensado acerca de la Web como una red de recursos conectados de manera significativa, p.e., con semantica. Desde luego no podemos volver atrás más lejos en el tiempo que eso? En realidad... - En 1969, la investigación sobre la colaboración en línea y la interacción persona-ordenador dirigido por Douglas Engelbart y patrocinado por ARPA, llegara al predecesor de Internet, DARPANET. Espera, pero antes de esto difícilmente podemos hablar de computadoras ... Es cierto, pero ...
- En 1945 Vannevar Bush propuso Memex, un sistema de catalogación, la vinculación y la gestión del conocimiento. Muchas personas que trabajan en tecnologías semánticas, incluyendo bibliotecas semanticas digitales, podemos considerar a Memex como un antepasado de los cambios actuales en la Web.
Gran Colisionador de Conocimiento (Large Knowledge Collider)
El ruido que se originó durante el trabajo en el Gran Colisionador de Hadrones (inglés: Large Hadron Collider) no podía pasar desapercibido. Por tanto, no fue una sorpresa para mí que uno de los proyectos más interesantes de Web 3.0 financiados a cargo del Séptimo Programa Marco de Investigación y Desarrollo (EU FP7 R&D) se llama Gran Colisionador de Conocimiento (inglés: The Large Knowledge Collider - LarKC).
Uno de los objetivos principales del proyecto LarKC es recopilar conocimientos disponibles en la nube de datos vinculados (inglés Linked Open Data) y entregar los servicios de forma eficiente utilizando operaciones sobre estos datos.
Lo que esto proyecto hace se describe mejor con un Wordle:
No se podría entender este proyecto si no se hubiese publicado recientemente unos conjuntos de datos:
- Intereses de los investigadores científicos, relacionados con las TIC (Tecnologías de la información y la comunicación), incluye una representación semántica de unos 600.000 perfiles de los investigadores científicos; se basa en los datos abiertos disponibles en el servicio de DBLP.
- Almacén semántico de los datos vinculados (inglés: Linked Data Semantic Repository), contiene alrededor de 1.7 millones de triples que almacenan los datos vinculados de una serie de servicios de gestión del conocimiento genérico, incluyendo DBPedia, Freebase, Geonames, MusicBrainz, UMBEL , y el que conocemos WordNet.
Los datos vinculados de las ciencias naturales (inglés: Linked Life Data), probablemente una de las bases de datos más interesantes, contiene 5 millones de triples con la información biomédica relacionadas entre diferentes fuentes de información, que han sido integrados en esta base de datos.
Si se está pregutando porqué he dedicado un artículo al proyecto LarKC, la respuesta es muy simple: el lunes comentaré el lenguaje de consultas SPARQL, y el conocimiento adquirido podrá ponerse a prueba en los dós últimos almacenes presentados: LDSR y Linked Life Date.
¡Ábrete sésamo! O cómo instalar Sesame 2.0
Como ya anuncié (tras un pequeño descanso) en el artículo de hoy voy a describir como en unos pocos pasos se puede instalar una base de datos (almacén) RDF. Si bien este artículo está dirigido principalmente para los desarrolladores, la instalación básica de Sesame es tan sencilla que animo a todos a hacerlo. De esta forma podrá comprobar los conocimientos adquiridos (especialmente en lo relativo a las consultas de SPARQL) que ha aprendido hasta ahora.
Nuevo Libro: Los Patrones (de Diseño) de Datos Vinculados
El año pasado escribí sobre el concepto de los datos vinculados y su gran importancia para el desarrollo de la Web 3.0. Por su papel, es muy importante que todos aquellos que publican y usan los datos vinculados respeten y sigan las normas establecidas y ampliamente aceptadas en patrones de diseño.
Conversaciones de ascensor. ¿Qué es todo esto de web 3.0?
En la presentación de un proyecto, comercial o científico, tarde o temprano nos encontramos con lo que se llama un discurso de ascensor, en el que se explica una idea en unos pocos segundos.
Esta es una historia que explica porqué habría que interesarse en la web semántica.
Imaginemos que los líderes de Polonia, Alemania, y la República Checa se sientan en la mesa para llegar a una "verdad histórica" en relación a la Segunda Guerra Mundial. ¿Qué problemas tendrían?
- Hablan diferentes idiomas.
- Cada nación tiene una verdad "local" diferente, que a menudo contradice la de otros.
- Los sucesos y lúgares tienen nombres diferentes.
- La verdad "objetiva" de aquellos tiempos se encuentre profundamente enterrada en los archivos.
En otras palabras, intentamos corregir y permitir el intercambio de conocimiento sin restricciones entre los diferentes sistemas.
El primer paso sería contratar intérpretes, o acordar un lenguaje común para el diálogo; no es difícil imaginar que los representantes de los cuatro países hablarían, por ejemplo, en inglés. De esta forma, ninguno se sentiría "engañado" por hablar la lengua de alguno de los participantes de la reunión.
Esto es lo que RDF (Resource Desciption Framework) realmente hace: un lenguaje de modelado del conocimiento que presentaré a continuación. ¿Por qué no utilizar XML...?
En segundo lugar, cada participante ve los de eventos de hace 70 años de una forma diferente. Los describe utilizando diferentes formatos. Los mismos sucesos, lugares, y palabras tienen connotaciones muy diferentes.
Por este motivo XML no es una buena idea, porque para validarlo es necesario un esquema común; mientras que en RDF cada participante define sus propias ontologías reutilizando un lenguaje común, tanto como sea posible. La entrega de la información desde diferentes fuentes no necesita que la ontología necesite acordarse previamente (el esquema XML equivalente para RDF).
En tercer lugar, como hay significados diferentes para los lugares históricos o eventos, cada parte podría utilizar nombres diferentes. Lo que se necesita es un vocabulario común, al que se asociarían los diferentes nombres para referenciar la misma cosa.
Este problema, asociar diferentes nombres a la misma cosa, puede ser resuelta con la automatización: identificadores comunes. Si bien no hay forma de obligar a que exista un único identificador para un significado, es posible imaginar que diferentes identificadores hagan referencia al mismo concepto. Las reglas de una ontología como la propiedad funcional inversa (inverse functional property), puede ser utilizada para identificar de forma uniquivoca un concepto.
Por último, pero no menos importante, una parte fundamental del diálogo es permitir el acceso a los ficheros de todas las partes, sin tener que crear acuerdos bilaterales por separado, visitas independientes a un archivo individual, etc.
Actualmente, la cuestión más importante relacionada con el crecimiento de la Web Semántica global es combinar y ofrecer un acceso abierto a varias fuentes de conocimiento (Linked Open Data), como blogs, wikis, open government data, etc. Sólo utilizando tales mecanismos que permiten el acceso unificado al conocimiento global podrá florecer la Web Semántica.
Este ejemplo corto muestra lo que realmente son los problemas reales, no sólo en Internet, sino también en el mundo real. La Web Semántica es un sistema global y distribuido que ayuda (al menos parcialmente), ayuda (o ayudará) a solucionarlos. Así que no es de extrañar que el gobierno del presidente Obama decidiera utilizar tecnologías de web 3.0 para construir el portal Recovery.org.
En el próximo artículo describiré como nació la idea de Web Semántica.




