Una de los puntos que más confunden cuando uno se aproxima al Open Data o Datos Abiertos es su arquitectura de información. Al principio, esta forma de componer la información es, para el no iniciado en el tema, algo confusa. En esta entrada espero aclarar cuál es la arquitectura habitual de los datos abiertos y veremos que es muy sencilla, el único problema que tenía por el momento es que toda esta arquitectura se definía fundamentalmente en las recomendaciones del W3C, que pueden ser algo tediosas de leer.

Hablaré de los siguientes puntos en esta entrada:

– ¿Qué es DCAT? ¿Por qué? ¿Para qué sirve un catálogo de datos?

– Arquitectura general de un catálogo de datos Open Data.

– El Dataset o conjunto de datos

– El recurso o la distribución

¿Qué es DCAT? ¿Por qué? ¿Para qué sirve un catálogo de datos?

Según las intenciones del W3C, DCAT es un vocabulario RDF diseñado para interoperar entre catálogos de datos publicados en la Web.

¿Qué significa esto? Fundamentalmente, las siglas RDF significan Resource Definition Framework o Marco de definición de recursos. Que sea un vocabulario RDF quiere decir que es un vocabulario que define un recurso Web, por lo general hablamos de datos, por ejemplo una imagen, una serie de datos… Al final lo que hace es definir qué es lo que nos encontramos y sus relaciones con otras cosas. Una forma de definir que un libro (un recurso de datos, puede que de texto), y que este libro tiene una portada (una imagen), un autor (más datos)… Cada recurso está identificado por una dirección Web y el ‘RDF’ definiría lo que nos encontramos allí.

Todo esto está impulsado por lo que se quiere llamar ‘Web Semántica’ y el movimiento que tiene como máximo exponente al creador del HTML, Sir Tim Berners-Lee. El objetivo de la Web Semántica es ‘describir’ de alguna forma la Web para que las búsquedas sean mejores y el contenido esté relacionado más allá de los enlaces. Y mucho más, por supuesto, pero no lo voy a tratar en esta entrada. Podéis consultar el video de Berners-Lee en el TED.

Arquitectura general de un catálogo de datos Open Data

La arquitectura de un catálogo de datos es la de la figura siguiente:

Modelo DCAT - Derechos reservados W3C reproducido para propósito divulgativo
Modelo DCAT – Derechos reservados W3C reproducido para propósito divulgativo

Sin entrar demasiado en la configuración del modelo, nos centraremos en lo que representa un catálogo, el dataset o conjunto de datos y la distribución o recurso. Temas de foafskos, etc, son conceptos de Web Semántica que no voy a tratar en esta entrada.

El catálogo en sí es una descripción de los conjuntos de datos o datasets de que dispone. Fundamentalment es un título del catálogo y una descripción, además de metadatos como el lenguaje, la licencia (que en la última versión se puede poner a nivel de distribución), la fecha de publicación, la de modificación…

Por poner un ejemplo, un catálogo podría ser el ‘Catálogo de datos abiertos del ayuntamiento de …” o del “Gobierno de xxx”, aunque también podría ser que hubiesen varios catálogos en un ayuntamiento, por ejemplo, aunque no es lo habitual.

En cuanto a la licencia, hay que asegurarse que sea una licencia que cumpla con el Open Data, si el catálogo es un catálogo de datos abiertos (ver la entrada sobre introducción al open data en mi blog). El W3C no ha tenido muy claro a qué nivel poner la licencia, y en la última versión que comentamos, la licencia puede estar a nivel de catálogo o a nivel de distribución. Al parecer, por ejemplo, aunque hablemos de un libro de dominio público (por ejemplo Las aventuras de Tom Sawyer), ciertas maquetaciones pueden estar sujetas a algún tipo de licencia.

 El Dataset o conjunto de datos

El Dataset es el corazón de un catálogo. Es el ‘conjunto de datos’ que son publicados y mantenidos por un sólo agente y están disponibles en uno o más formatos. Al final es un conjunto coherente de recursos disponibles y es muy importante que la responsabilidad de su actualización y publicación recaiga sobre el mismo agente. Uno de los datasets más populares del mundo es, por ejemplo, el de los resultados de la inspección sanitaria en NYC. Esto es un dataset, un ‘recurso global’. Lo que el ciudadano, usuario o cualquier otro interesado busca.

Los datos que debe contener son un título, una descripción, un contacto para comunicarse con el responsable del conjunto de datos (muy importante) y una frecuencia (al menos estimada) de actualización.

La distribución o recurso

Ahora bien, por último tenemos lo que es la distribución o el recurso. El nombre en las aplicaciones suele ser el de ‘recurso’ y en el del catálogo ‘distribución’. Explicaré por qué ocurre esto y qué es.

Desde el punto de vista de un catálogo, la distribución es, en definitiva, un recurso con los mismos datos publicados de forma diferente. Por ejemplo, los datos anteriormente mencionados del registro de inspecciones sanitarias de Nueva York puede estar en varios formatos, por ejemplo en PDF, en Excel o en JSON (para que las aplicaciones móviles, por ejemplo, puedan comunicarse con estos datos). Cada distribución está en un formato dado. Cada distribución, además, podría poseer una licencia diferenciada, una fecha de publicación y una fecha de actualización. Y, por supuesto, cada recurso está definido por una URL o dirección de Internet única donde están a disposición estos datos.

En cuanto a por qué las aplicaciones les llaman recursos, es por el uso habitual de considerar distribuciones a diferentes partes de un mismo conjunto de datos. Vamos a suponer el libro ‘Las Aventuras de Tom Sawyer’ de Mark Twain. Podríamos encontrarnos el texto en formato texto y en formato PDF, lo que serían dos distribuciones. Pero es uso habitual el considerar, por ejemplo, una imagen de la portada o el índice en JSON como ‘componentes’ del mismo dataset, aunque no sean exactamente los mismos datos, pero creo que todos veríamos coherencia en el conjunto de datos.

 ¿Mantenerme Informado?

En iProcuratio tenemos una lista de distribución exclusiva para Open Data. Le recomendamos apuntarse (no más de dos correos al mes) en la dirección:

http://eepurl.com/TdCYD

 

Anuncios