Buscar

Blog de Alfonso Tienda

Marketing, Startups, Proyectos y Tecnología.

Categoría

Open Government

Taxonomías en el Open Data: SKOS ¿Y eso qué es?????

Caja de cerveza SKOL Modificada. Para propósito educativo
Caja de cerveza SKOL Modificada. Para propósito educativo

 

Últimamente estoy escribiendo bastante sobre Open Data. Si no sabéis lo que es o no estáis familiarizados sobre los catálogos, os recomiendo empezar por la introducción al Open Data y posteriormente sobre la descripción de la arquitectura del Open Data.

También puede resultar interesante una reflexión sobre el gobierno abierto y el open data.

Dentro de la arquitectura del Open Data encontramos un elemento llamado SKOS Concept y ConceptScheme:

Modelo DCAT - Derechos reservados W3C reproducido para propósito divulgativo
Modelo DCAT – Derechos reservados W3C reproducido para propósito divulgativo

Dado que hay muchas preguntas al respecto, intento introducir SKOS y el Concept y Concept-Scheme.

SKOS  son las siglas de Simple Knowledge Organization System o sistema simple de organización del conocimiento. Es un estándar para la definición de la estructura básica y el contenido de esquemas de conceptos como tesauros, esquemas de clasificación, taxonomías, etc. Está construido mediante RDF, que es un framework para definir recursos (‘cosas’ en internet).

Para entender qué es SKOS definamos primero la diferencia entre Vocabulario controlado y Tesauro:

Un vocabulario controlado es una lista de términos que una comunidad u organización ha acordado. Podrían ser por ejemplo los términos referentes a los principios activos de un medicamento: Paracetamol, Amoxicilina, etc.

Una taxonomía es un vocabulario controlado organizado en una jerarquía. Por ejemplo, podemos tener los términos fruta, vegetal y plátano en el cual plátano sería una subclase de fruta, que sería una subclase de vegetal.

Por último, un Tesauro es una taxonomía con más información acerca de cada concepto que incluye términos preferidos y alternativos («Banana» en Inglés, «Plátano» o «Banana» en español). Además un tesauro puede contener relaciones con conceptos relacionados, como las relaciones existentes entre fruta y banana. Básicamente un Tesauro es un diccionario de sinónimos, incluyendo las acepciones en otros idiomas.

Volvamos ahora a SKOS:Concept.

Los conceptos son las unidades de pensamiento las ideas, significados, o los objetos y eventos que subyacen en muchos sistemas de organización del conocimiento. Como tal, existen conceptos como entidades abstractas que son independientes de los términos utilizados para etiquetarlos. En SKOS, un Concept se utiliza para representar los elementos de un sistema de organización del conocimiento (términos, ideas, significados, etc.) o de estructura conceptual o la organización de un sistema de este tipo.

Vamos a aprenderlo con el ejemplo anterior. Creemos el primer concepto SKOS:

ex:Fruta  rdf:type  skos:Concept.

Hemos creado el Concepto Fruta. Vamos a añadirle información:

ex:Fruta rdf:type skos:Concept;
 skos:prefLabel "Fruit"@en;
 skos:prefLabel "Fruta"@es;
 skos:altLabel "Fruto"@es
 skos:narrower ex:Vegetal
 skos:narrower ex:Comida

Aquí estamos definiendo que ‘Fruta’ es un concepto con dos Términos, Fruit (que corresponde al inglés) y Fruta (que corresponde al español). Además, indicamos que es una especialización de dos conceptos: Vegetal y Comida. Por último también le comentamos que «Fruto» es un sinónimo en Castellano

ex:Plátano rdf:type skos:Concept;
 skos:prefLabel "Banana"@en;
 skos:prefLabel "Plátano"@es;
 skos:related ex:Potasio 
 skos:exactMatch ex:Banana

Aquí informamos que Plátano es exactamente igual que el concepto Banana, que podría ser otro concepto . Además, consideramos que el concepto ‘Plátano’ está relacionado con banana.


Un ConceptScheme es, por último, una agrupación de conceptos con sus relaciones.

Espero haber aclarado este complejo ‘concepto’ de SKOS.

 

 

 

 

 

 

 

 

¿Puede el Open Data hacer un mundo mejor?

El vídeo que presento hoy en el blog (subtitulado en español) es un video de allá por el 2006, en el que las palabras o el concepto ‘Open Data’ no eran de uso común, pero creo que es una gran demostración de lo que podemos descubrir gracias a los datos abiertos.

El vídeo que presento hoy en el blog (subtitulado en español) es un video de allá por el 2006, en el que las palabras o el concepto ‘Open Data’ no eran de uso común, pero creo que es una gran demostración de lo que podemos descubrir gracias a los datos abiertos.

Para los no iniciados en el concepto de Open Data les recomiendo mi entrada del blog con una Introducción al Open Data y House of Data.

El video es motivados. Desmonta los conceptos que tenemos de países en vías de desarrollo y países del ‘primer mundo’. Explica, mediante los datos, cómo no se puede tratar igual a todos los países y establece una relación directa entre la salud y educación y el desarrollo económico.

Son videos como estos los que demuestran que el Open Data no es una moda, es una necesidad para hacer un mundo mejor.

DCAT o la arquitectura de la información en el Open Data

Una de los puntos que más confunden cuando uno se aproxima al Open Data o Datos Abiertos es su arquitectura de información. Al principio, esta forma de componer la información es, para el no iniciado en el tema, algo confusa. En esta entrada espero aclarar cuál es la arquitectura habitual de los datos abiertos y veremos que es muy sencilla, el único problema que tenía por el momento es que toda esta arquitectura se definía fundamentalmente en las recomendaciones del W3C, que pueden ser algo tediosas de leer.

Hablaré de los siguientes puntos en esta entrada:

– ¿Qué es DCAT? ¿Por qué? ¿Para qué sirve un catálogo de datos?

– Arquitectura general de un catálogo de datos Open Data.

– El Dataset o conjunto de datos

– El recurso o la distribución

¿Qué es DCAT? ¿Por qué? ¿Para qué sirve un catálogo de datos?

Según las intenciones del W3C, DCAT es un vocabulario RDF diseñado para interoperar entre catálogos de datos publicados en la Web.

¿Qué significa esto? Fundamentalmente, las siglas RDF significan Resource Definition Framework o Marco de definición de recursos. Que sea un vocabulario RDF quiere decir que es un vocabulario que define un recurso Web, por lo general hablamos de datos, por ejemplo una imagen, una serie de datos… Al final lo que hace es definir qué es lo que nos encontramos y sus relaciones con otras cosas. Una forma de definir que un libro (un recurso de datos, puede que de texto), y que este libro tiene una portada (una imagen), un autor (más datos)… Cada recurso está identificado por una dirección Web y el ‘RDF’ definiría lo que nos encontramos allí.

Todo esto está impulsado por lo que se quiere llamar ‘Web Semántica’ y el movimiento que tiene como máximo exponente al creador del HTML, Sir Tim Berners-Lee. El objetivo de la Web Semántica es ‘describir’ de alguna forma la Web para que las búsquedas sean mejores y el contenido esté relacionado más allá de los enlaces. Y mucho más, por supuesto, pero no lo voy a tratar en esta entrada. Podéis consultar el video de Berners-Lee en el TED.

Arquitectura general de un catálogo de datos Open Data

La arquitectura de un catálogo de datos es la de la figura siguiente:

Modelo DCAT - Derechos reservados W3C reproducido para propósito divulgativo
Modelo DCAT – Derechos reservados W3C reproducido para propósito divulgativo

Sin entrar demasiado en la configuración del modelo, nos centraremos en lo que representa un catálogo, el dataset o conjunto de datos y la distribución o recurso. Temas de foafskos, etc, son conceptos de Web Semántica que no voy a tratar en esta entrada.

El catálogo en sí es una descripción de los conjuntos de datos o datasets de que dispone. Fundamentalment es un título del catálogo y una descripción, además de metadatos como el lenguaje, la licencia (que en la última versión se puede poner a nivel de distribución), la fecha de publicación, la de modificación…

Por poner un ejemplo, un catálogo podría ser el ‘Catálogo de datos abiertos del ayuntamiento de …» o del «Gobierno de xxx», aunque también podría ser que hubiesen varios catálogos en un ayuntamiento, por ejemplo, aunque no es lo habitual.

En cuanto a la licencia, hay que asegurarse que sea una licencia que cumpla con el Open Data, si el catálogo es un catálogo de datos abiertos (ver la entrada sobre introducción al open data en mi blog). El W3C no ha tenido muy claro a qué nivel poner la licencia, y en la última versión que comentamos, la licencia puede estar a nivel de catálogo o a nivel de distribución. Al parecer, por ejemplo, aunque hablemos de un libro de dominio público (por ejemplo Las aventuras de Tom Sawyer), ciertas maquetaciones pueden estar sujetas a algún tipo de licencia.

 El Dataset o conjunto de datos

El Dataset es el corazón de un catálogo. Es el ‘conjunto de datos’ que son publicados y mantenidos por un sólo agente y están disponibles en uno o más formatos. Al final es un conjunto coherente de recursos disponibles y es muy importante que la responsabilidad de su actualización y publicación recaiga sobre el mismo agente. Uno de los datasets más populares del mundo es, por ejemplo, el de los resultados de la inspección sanitaria en NYC. Esto es un dataset, un ‘recurso global’. Lo que el ciudadano, usuario o cualquier otro interesado busca.

Los datos que debe contener son un título, una descripción, un contacto para comunicarse con el responsable del conjunto de datos (muy importante) y una frecuencia (al menos estimada) de actualización.

La distribución o recurso

Ahora bien, por último tenemos lo que es la distribución o el recurso. El nombre en las aplicaciones suele ser el de ‘recurso’ y en el del catálogo ‘distribución’. Explicaré por qué ocurre esto y qué es.

Desde el punto de vista de un catálogo, la distribución es, en definitiva, un recurso con los mismos datos publicados de forma diferente. Por ejemplo, los datos anteriormente mencionados del registro de inspecciones sanitarias de Nueva York puede estar en varios formatos, por ejemplo en PDF, en Excel o en JSON (para que las aplicaciones móviles, por ejemplo, puedan comunicarse con estos datos). Cada distribución está en un formato dado. Cada distribución, además, podría poseer una licencia diferenciada, una fecha de publicación y una fecha de actualización. Y, por supuesto, cada recurso está definido por una URL o dirección de Internet única donde están a disposición estos datos.

En cuanto a por qué las aplicaciones les llaman recursos, es por el uso habitual de considerar distribuciones a diferentes partes de un mismo conjunto de datos. Vamos a suponer el libro ‘Las Aventuras de Tom Sawyer’ de Mark Twain. Podríamos encontrarnos el texto en formato texto y en formato PDF, lo que serían dos distribuciones. Pero es uso habitual el considerar, por ejemplo, una imagen de la portada o el índice en JSON como ‘componentes’ del mismo dataset, aunque no sean exactamente los mismos datos, pero creo que todos veríamos coherencia en el conjunto de datos.

 ¿Mantenerme Informado?

En iProcuratio tenemos una lista de distribución exclusiva para Open Data. Le recomendamos apuntarse (no más de dos correos al mes) en la dirección:

http://eepurl.com/TdCYD

 

House of Data: #OpenData y #OpenGovernment

House of Cards
House of Cards. Todos los derechos reservados. El uso de imágenes para comentarios críticos de programas o series de televisión está permitido por las leyes de EEUU.

Hay una serie de televisión que últimamente me quita el sueño, ya que me cuesta dejar de ver un episodio tras otro: House Of Cards. House of Cards es una expléndida serie norteamericana que, además de ser unos de los primeros grandes éxitos estrenados en Internet (en Estados Unidos, la serie se retrasmite por NetFlix) se situa en las antítesis de la política que veíamos en la ya mítica El ala oeste de la Casablanca. En este caso, la política es de inspiración renacentista. Los congresistas, senadores, gobernadores actuan como los Medici, como los Borgia. Un mundo de intrigas y conspiraciones en el que todos sus personajes parecen haber estudiado detenidamente ‘El principe’ de Maquiavelo al que cuiriosamente ya nombré en mi entrada sobre gestión del cambio en el blog de iProcuratio.

 

“…de lo cual se infiere una regla general que rara vez o nunca falla: el que ayuda a otro a hacerse poderoso causa su propia ruina; porque es natural que el que se ha vuelto poderoso recele de la misma astucia o de la misma fuerza gracias a las cuales se lo ha ayudado”.

Nicolas Maquiavelo, El Príncipe

La serie es absolutamente magnífica, pero hay una cosa que llama la atención. No es el poder militar (aquel con el cual los Borgia y la corona de Aragón se asustaban el uno al otro), ni el personal. Es la información lo que empodera a estos políticos. Hay dos clases de personajes en la trama, los que saben lo que ocurre y los que no tienen ni idea de lo que está pasando.

Esta serie, y esta introducción, me ha llevado a reflexionar y a escribir más sobre (ya escribí hace poco sobre los beneficios del en las administraciones públicas). Pero en este caso a reflexionar directamente sobre el papel del en los gobiernos en democracia. La información es poder y la política hace uso de él, pero no es de su propiedad. Es propiedad de los ciudadanos y nuestra responsabilidad su mantenimiento y su uso. Sólo se puede dar mal uso a la información si la ocultas a los demás, lo que te da capacidad de manipularla o incluso robarla, como me sucedió a mí en una ocasión. Y, creedme, hay un arte en el tratamiento de la información.

Open Data y eGovernment

Hay tres grandes avances en la apertura de datos en los gobiernos:

  • Transparencia
  • Aprovechamiento del valor social y comercial de los datos
  • Gobierno participativo

En cuanto a la transparencia, los ciudadanos de un estado democrático tienen el derecho a conocer con detalle lo que hace su administración. Deben tener acceso, salvo en casos muy concretos, a todos los datos que dispone su gobierno.  Pero la trasparencia sólo es posible con acceso a estos datos abiertos. Además, estos datos han de ser perfectamente accesibles. Pero hay que ir un poco más alla. Han de tener permiso a compartirlos y a reutiliarlos. Y no hay que perder de vista ese objetivo.

Estos datos, por otra parte, tienen un gran valor comercial y social. Vivimos en la era digital, en la era de la información. Los datos son la clave para actividades sociales y comerciales. Con la apertura de datos, los gobiernos posibilitarán la creación de negocios innovadores (podéis consultar mi entrada sobre innovación ), de aplicaciones móviles o de cualquier

Con los datos abiertos, con el acceso a los datos, se capacita a los ciudadanos para tomar mejores deciciones y, por lo tanto, para poder decidir muchas más cosas, y con mucha más frecuencia. Se les puede involucar directamente en la toma de decisiones.

Pero, ¿hay realmente un movimiento de Open Data en las administraciones?

En mi opinión, y tanto que sí. Hay, por todo el mundo, un  impulso hacia la apertura de datos que no se puede detener. La Unión Europea hará públicos los resultados de los ensayos clínicos, el gobernador de Maryland se convierte en un forofo del Open Data,  en Ontario (Canadá) se someterá a votación las prioridades del de la población en materia de liberación de datos, Indonesia considera que el Open Data es parte importante de la solución a los problemas de transporte y seguridad de su capital… los ejemplos se multiplican.

El no es una moda, es algo más. No es sólo un beneficio social o económico. Forma parte de nuestra libertad como personas y como ciudadanos.

 

Crea un blog o un sitio web gratuitos con WordPress.com.

Subir ↑