Buscar

Blog de Alfonso Tienda

Marketing, Startups, Proyectos y Tecnología.

Categoría

Open Data

Taxonomías en el Open Data: SKOS ¿Y eso qué es?????

Caja de cerveza SKOL Modificada. Para propósito educativo
Caja de cerveza SKOL Modificada. Para propósito educativo

 

Últimamente estoy escribiendo bastante sobre Open Data. Si no sabéis lo que es o no estáis familiarizados sobre los catálogos, os recomiendo empezar por la introducción al Open Data y posteriormente sobre la descripción de la arquitectura del Open Data.

También puede resultar interesante una reflexión sobre el gobierno abierto y el open data.

Dentro de la arquitectura del Open Data encontramos un elemento llamado SKOS Concept y ConceptScheme:

Modelo DCAT - Derechos reservados W3C reproducido para propósito divulgativo
Modelo DCAT – Derechos reservados W3C reproducido para propósito divulgativo

Dado que hay muchas preguntas al respecto, intento introducir SKOS y el Concept y Concept-Scheme.

SKOS  son las siglas de Simple Knowledge Organization System o sistema simple de organización del conocimiento. Es un estándar para la definición de la estructura básica y el contenido de esquemas de conceptos como tesauros, esquemas de clasificación, taxonomías, etc. Está construido mediante RDF, que es un framework para definir recursos (‘cosas’ en internet).

Para entender qué es SKOS definamos primero la diferencia entre Vocabulario controlado y Tesauro:

Un vocabulario controlado es una lista de términos que una comunidad u organización ha acordado. Podrían ser por ejemplo los términos referentes a los principios activos de un medicamento: Paracetamol, Amoxicilina, etc.

Una taxonomía es un vocabulario controlado organizado en una jerarquía. Por ejemplo, podemos tener los términos fruta, vegetal y plátano en el cual plátano sería una subclase de fruta, que sería una subclase de vegetal.

Por último, un Tesauro es una taxonomía con más información acerca de cada concepto que incluye términos preferidos y alternativos (Banana” en Inglés, Plátano” o “Banana” en español). Además un tesauro puede contener relaciones con conceptos relacionados, como las relaciones existentes entre fruta y banana. Básicamente un Tesauro es un diccionario de sinónimos, incluyendo las acepciones en otros idiomas.

Volvamos ahora a SKOS:Concept.

Los conceptos son las unidades de pensamiento las ideas, significados, o los objetos y eventos que subyacen en muchos sistemas de organización del conocimiento. Como tal, existen conceptos como entidades abstractas que son independientes de los términos utilizados para etiquetarlos. En SKOS, un Concept se utiliza para representar los elementos de un sistema de organización del conocimiento (términos, ideas, significados, etc.) o de estructura conceptual o la organización de un sistema de este tipo.

Vamos a aprenderlo con el ejemplo anterior. Creemos el primer concepto SKOS:

ex:Fruta  rdf:type  skos:Concept.

Hemos creado el Concepto Fruta. Vamos a añadirle información:

ex:Fruta rdf:type skos:Concept;
 skos:prefLabel "Fruit"@en;
 skos:prefLabel "Fruta"@es;
 skos:altLabel "Fruto"@es
 skos:narrower ex:Vegetal
 skos:narrower ex:Comida

Aquí estamos definiendo que ‘Fruta’ es un concepto con dos Términos, Fruit (que corresponde al inglés) y Fruta (que corresponde al español). Además, indicamos que es una especialización de dos conceptos: Vegetal y Comida. Por último también le comentamos que “Fruto” es un sinónimo en Castellano

ex:Plátano rdf:type skos:Concept;
 skos:prefLabel "Banana"@en;
 skos:prefLabel "Plátano"@es;
 skos:related ex:Potasio 
 skos:exactMatch ex:Banana

Aquí informamos que Plátano es exactamente igual que el concepto Banana, que podría ser otro concepto . Además, consideramos que el concepto ‘Plátano’ está relacionado con banana.


Un ConceptScheme es, por último, una agrupación de conceptos con sus relaciones.

Espero haber aclarado este complejo ‘concepto’ de SKOS.

 

 

 

 

 

 

 

 

¿Puede el Open Data hacer un mundo mejor?

El vídeo que presento hoy en el blog (subtitulado en español) es un video de allá por el 2006, en el que las palabras o el concepto ‘Open Data’ no eran de uso común, pero creo que es una gran demostración de lo que podemos descubrir gracias a los datos abiertos.

El vídeo que presento hoy en el blog (subtitulado en español) es un video de allá por el 2006, en el que las palabras o el concepto ‘Open Data’ no eran de uso común, pero creo que es una gran demostración de lo que podemos descubrir gracias a los datos abiertos.

Para los no iniciados en el concepto de Open Data les recomiendo mi entrada del blog con una Introducción al Open Data y House of Data.

El video es motivados. Desmonta los conceptos que tenemos de países en vías de desarrollo y países del ‘primer mundo’. Explica, mediante los datos, cómo no se puede tratar igual a todos los países y establece una relación directa entre la salud y educación y el desarrollo económico.

Son videos como estos los que demuestran que el Open Data no es una moda, es una necesidad para hacer un mundo mejor.

DCAT o la arquitectura de la información en el Open Data

Una de los puntos que más confunden cuando uno se aproxima al Open Data o Datos Abiertos es su arquitectura de información. Al principio, esta forma de componer la información es, para el no iniciado en el tema, algo confusa. En esta entrada espero aclarar cuál es la arquitectura habitual de los datos abiertos y veremos que es muy sencilla, el único problema que tenía por el momento es que toda esta arquitectura se definía fundamentalmente en las recomendaciones del W3C, que pueden ser algo tediosas de leer.

Hablaré de los siguientes puntos en esta entrada:

– ¿Qué es DCAT? ¿Por qué? ¿Para qué sirve un catálogo de datos?

– Arquitectura general de un catálogo de datos Open Data.

– El Dataset o conjunto de datos

– El recurso o la distribución

¿Qué es DCAT? ¿Por qué? ¿Para qué sirve un catálogo de datos?

Según las intenciones del W3C, DCAT es un vocabulario RDF diseñado para interoperar entre catálogos de datos publicados en la Web.

¿Qué significa esto? Fundamentalmente, las siglas RDF significan Resource Definition Framework o Marco de definición de recursos. Que sea un vocabulario RDF quiere decir que es un vocabulario que define un recurso Web, por lo general hablamos de datos, por ejemplo una imagen, una serie de datos… Al final lo que hace es definir qué es lo que nos encontramos y sus relaciones con otras cosas. Una forma de definir que un libro (un recurso de datos, puede que de texto), y que este libro tiene una portada (una imagen), un autor (más datos)… Cada recurso está identificado por una dirección Web y el ‘RDF’ definiría lo que nos encontramos allí.

Todo esto está impulsado por lo que se quiere llamar ‘Web Semántica’ y el movimiento que tiene como máximo exponente al creador del HTML, Sir Tim Berners-Lee. El objetivo de la Web Semántica es ‘describir’ de alguna forma la Web para que las búsquedas sean mejores y el contenido esté relacionado más allá de los enlaces. Y mucho más, por supuesto, pero no lo voy a tratar en esta entrada. Podéis consultar el video de Berners-Lee en el TED.

Arquitectura general de un catálogo de datos Open Data

La arquitectura de un catálogo de datos es la de la figura siguiente:

Modelo DCAT - Derechos reservados W3C reproducido para propósito divulgativo
Modelo DCAT – Derechos reservados W3C reproducido para propósito divulgativo

Sin entrar demasiado en la configuración del modelo, nos centraremos en lo que representa un catálogo, el dataset o conjunto de datos y la distribución o recurso. Temas de foafskos, etc, son conceptos de Web Semántica que no voy a tratar en esta entrada.

El catálogo en sí es una descripción de los conjuntos de datos o datasets de que dispone. Fundamentalment es un título del catálogo y una descripción, además de metadatos como el lenguaje, la licencia (que en la última versión se puede poner a nivel de distribución), la fecha de publicación, la de modificación…

Por poner un ejemplo, un catálogo podría ser el ‘Catálogo de datos abiertos del ayuntamiento de …” o del “Gobierno de xxx”, aunque también podría ser que hubiesen varios catálogos en un ayuntamiento, por ejemplo, aunque no es lo habitual.

En cuanto a la licencia, hay que asegurarse que sea una licencia que cumpla con el Open Data, si el catálogo es un catálogo de datos abiertos (ver la entrada sobre introducción al open data en mi blog). El W3C no ha tenido muy claro a qué nivel poner la licencia, y en la última versión que comentamos, la licencia puede estar a nivel de catálogo o a nivel de distribución. Al parecer, por ejemplo, aunque hablemos de un libro de dominio público (por ejemplo Las aventuras de Tom Sawyer), ciertas maquetaciones pueden estar sujetas a algún tipo de licencia.

 El Dataset o conjunto de datos

El Dataset es el corazón de un catálogo. Es el ‘conjunto de datos’ que son publicados y mantenidos por un sólo agente y están disponibles en uno o más formatos. Al final es un conjunto coherente de recursos disponibles y es muy importante que la responsabilidad de su actualización y publicación recaiga sobre el mismo agente. Uno de los datasets más populares del mundo es, por ejemplo, el de los resultados de la inspección sanitaria en NYC. Esto es un dataset, un ‘recurso global’. Lo que el ciudadano, usuario o cualquier otro interesado busca.

Los datos que debe contener son un título, una descripción, un contacto para comunicarse con el responsable del conjunto de datos (muy importante) y una frecuencia (al menos estimada) de actualización.

La distribución o recurso

Ahora bien, por último tenemos lo que es la distribución o el recurso. El nombre en las aplicaciones suele ser el de ‘recurso’ y en el del catálogo ‘distribución’. Explicaré por qué ocurre esto y qué es.

Desde el punto de vista de un catálogo, la distribución es, en definitiva, un recurso con los mismos datos publicados de forma diferente. Por ejemplo, los datos anteriormente mencionados del registro de inspecciones sanitarias de Nueva York puede estar en varios formatos, por ejemplo en PDF, en Excel o en JSON (para que las aplicaciones móviles, por ejemplo, puedan comunicarse con estos datos). Cada distribución está en un formato dado. Cada distribución, además, podría poseer una licencia diferenciada, una fecha de publicación y una fecha de actualización. Y, por supuesto, cada recurso está definido por una URL o dirección de Internet única donde están a disposición estos datos.

En cuanto a por qué las aplicaciones les llaman recursos, es por el uso habitual de considerar distribuciones a diferentes partes de un mismo conjunto de datos. Vamos a suponer el libro ‘Las Aventuras de Tom Sawyer’ de Mark Twain. Podríamos encontrarnos el texto en formato texto y en formato PDF, lo que serían dos distribuciones. Pero es uso habitual el considerar, por ejemplo, una imagen de la portada o el índice en JSON como ‘componentes’ del mismo dataset, aunque no sean exactamente los mismos datos, pero creo que todos veríamos coherencia en el conjunto de datos.

 ¿Mantenerme Informado?

En iProcuratio tenemos una lista de distribución exclusiva para Open Data. Le recomendamos apuntarse (no más de dos correos al mes) en la dirección:

http://eepurl.com/TdCYD

 

House of Data: #OpenData y #OpenGovernment

House of Cards
House of Cards. Todos los derechos reservados. El uso de imágenes para comentarios críticos de programas o series de televisión está permitido por las leyes de EEUU.

Hay una serie de televisión que últimamente me quita el sueño, ya que me cuesta dejar de ver un episodio tras otro: House Of Cards. House of Cards es una expléndida serie norteamericana que, además de ser unos de los primeros grandes éxitos estrenados en Internet (en Estados Unidos, la serie se retrasmite por NetFlix) se situa en las antítesis de la política que veíamos en la ya mítica El ala oeste de la Casablanca. En este caso, la política es de inspiración renacentista. Los congresistas, senadores, gobernadores actuan como los Medici, como los Borgia. Un mundo de intrigas y conspiraciones en el que todos sus personajes parecen haber estudiado detenidamente ‘El principe’ de Maquiavelo al que cuiriosamente ya nombré en mi entrada sobre gestión del cambio en el blog de iProcuratio.

 

“…de lo cual se infiere una regla general que rara vez o nunca falla: el que ayuda a otro a hacerse poderoso causa su propia ruina; porque es natural que el que se ha vuelto poderoso recele de la misma astucia o de la misma fuerza gracias a las cuales se lo ha ayudado”.

Nicolas Maquiavelo, El Príncipe

La serie es absolutamente magnífica, pero hay una cosa que llama la atención. No es el poder militar (aquel con el cual los Borgia y la corona de Aragón se asustaban el uno al otro), ni el personal. Es la información lo que empodera a estos políticos. Hay dos clases de personajes en la trama, los que saben lo que ocurre y los que no tienen ni idea de lo que está pasando.

Esta serie, y esta introducción, me ha llevado a reflexionar y a escribir más sobre (ya escribí hace poco sobre los beneficios del en las administraciones públicas). Pero en este caso a reflexionar directamente sobre el papel del en los gobiernos en democracia. La información es poder y la política hace uso de él, pero no es de su propiedad. Es propiedad de los ciudadanos y nuestra responsabilidad su mantenimiento y su uso. Sólo se puede dar mal uso a la información si la ocultas a los demás, lo que te da capacidad de manipularla o incluso robarla, como me sucedió a mí en una ocasión. Y, creedme, hay un arte en el tratamiento de la información.

Open Data y eGovernment

Hay tres grandes avances en la apertura de datos en los gobiernos:

  • Transparencia
  • Aprovechamiento del valor social y comercial de los datos
  • Gobierno participativo

En cuanto a la transparencia, los ciudadanos de un estado democrático tienen el derecho a conocer con detalle lo que hace su administración. Deben tener acceso, salvo en casos muy concretos, a todos los datos que dispone su gobierno.  Pero la trasparencia sólo es posible con acceso a estos datos abiertos. Además, estos datos han de ser perfectamente accesibles. Pero hay que ir un poco más alla. Han de tener permiso a compartirlos y a reutiliarlos. Y no hay que perder de vista ese objetivo.

Estos datos, por otra parte, tienen un gran valor comercial y social. Vivimos en la era digital, en la era de la información. Los datos son la clave para actividades sociales y comerciales. Con la apertura de datos, los gobiernos posibilitarán la creación de negocios innovadores (podéis consultar mi entrada sobre innovación ), de aplicaciones móviles o de cualquier

Con los datos abiertos, con el acceso a los datos, se capacita a los ciudadanos para tomar mejores deciciones y, por lo tanto, para poder decidir muchas más cosas, y con mucha más frecuencia. Se les puede involucar directamente en la toma de decisiones.

Pero, ¿hay realmente un movimiento de Open Data en las administraciones?

En mi opinión, y tanto que sí. Hay, por todo el mundo, un  impulso hacia la apertura de datos que no se puede detener. La Unión Europea hará públicos los resultados de los ensayos clínicos, el gobernador de Maryland se convierte en un forofo del Open Data,  en Ontario (Canadá) se someterá a votación las prioridades del de la población en materia de liberación de datos, Indonesia considera que el Open Data es parte importante de la solución a los problemas de transporte y seguridad de su capital… los ejemplos se multiplican.

El no es una moda, es algo más. No es sólo un beneficio social o económico. Forma parte de nuestra libertad como personas y como ciudadanos.

 

Una introducción al Open Data. Beneficios del Open Data en las administraciones públicas

Desde mi trabajo en iProcuratio Consultores, estamos promoviendo varias iniciativas de Open Data. A mi parecer, el Open Data es una de esas pocas innovaciones disruptivas que de vez en cuando aparecen en el horizonte. Puede cambiar radicalmente el modo en el que manejamos la información.

¿Qué es el Open Data?

 

Original: Jacobus Buys [Public domain]
Original: Jacobus Buys [Public domain]
Según la Open Knowledge Foundation, el Open Data, o conocimiento abierto son contenidos como música, películas, libros. Datos tanto científicos, históricos, geográficos o de cualquier otro tipo e Información gubernamental y de otras administraciones públicas. En la definición general no se incluye el software por ser tratado en la definición de código abierto. Una obra o unos datos son abiertos si satisfacen las condiciones siguientes:

  • Acceso: la obra debe estar disponible integralmente y sólo a un coste de reproducción razonable, preferiblemente descargable de manera gratuita en Internet. La obra también debe estar disponible en una forma conveniente y para ser modificable.
  • Redistribución: La licencia no debe restringir a nadie la posibilidad de vender o distribuir la obra en sí misma o formando parte de un paquete hecho de obras de fuentes diversas. La licencia no debe exigir un pago o otro tipo de cuota para esta venta o distribución
  • Reutilización: La licencia de Open Data debe permitir hacer modificaciones y obras derivadas y debe permitir que éstas sean distribuidas en las mismas condiciones que la obra original. La licencia puede imponer algún tipo de requerimiento referente al reconocimiento y a la integridad.
  • Ausencia de restricciones tecnológicas: Se debe proporcionar la obra de manera que no haya ningún obstáculo tecnológico para ejecutar los actos mencionados anteriormente. Esto se puede conseguir ofreciendo la obra en un formato de datos abierto, i.e. un formato cuya especificación esté disponible públicamente y de manera gratuita y que para su uso no se imponga ninguna restricción de tipo monetario u otras.
  • Reconocimiento: La licencia puede exigir como condición para la redistribución y la reutilización el reconocimiento de los contribuyentes y creadores de la obra. Si se impone esta condición, no debe ser de manera onerosa. Por ejemplo si se exige un reconocimiento, la obra debería ir acompañada de una lista de aquellos que hay reconocer.
  • Integridad: La licencia puede requerir como condición para que la obra pueda ser distribuida con modificaciones que la obra resultante tenga un nombre diferente o incluya un número de versión diferente al de la obra original.
  • Sin discriminación de personas o grupos: La licencia no debe discriminar a ninguna persona o grupo de personas.
  • Sin discriminación de ámbitos de trabajo: La licencia no debe restringir a nadie hacer uso de la obra en un ámbito de trabajo específico. Por ejemplo, no puede restringir el uso de la obra en un negocio, o que ésta sea utilizada para investigación militar.
  • Distribución de la licencia: Los derechos adjuntos a la obra deben aplicarse también a cualquier persona a quien le sea redistribuida sin necesidad de que ésta ejecute una licencia adicional.
  • La licencia no debe ser específica de un paquete: Los derechos adjuntos a la obra no deben depender de que la obra forme parte de un paquete particular. Si la obra se extrae de ese paquete y se utiliza o se distribuye en las condiciones de la licencia de la obra, todos aquellos a quien les sea redistribuida deberán tener los mismos derechos que los concedidos conjuntamente con el paquete original.
  • La licencia no debe restringir la distribución de otras obras: La licencia no debe imponer restricciones en otras obras distribuidas conjuntamente con la obra objeto de la licencia. Por ejemplo, la licencia no debe imponer que todas las otras obras que se distribuyan por el mismo medio sean abiertas.

Beneficios del Open Data

Los beneficios del Open Data son muchos, pero nos centraremos en tres. Por una parte, los beneficios económicos, que crea un nuevo sector, los beneficios para los ciudadanos y los beneficios para las administraciones públicas.

Beneficios económicos

Con los datos abiertos se les da la oportunidad a las empresas de crear servicios y aplicaciones a partir de estos datos, generando un nuevo mercado y un nuevo sector (ver mi entrada ‘Seleccionando el mercado para nuestra startup“), basado en contenidos digitales, que ayudan a crear servicios de valor añadido al ciudadano. Hace que estas empresas, por lo general PYMES, sean más competitivas.

Según el “Estudio de caracterización del sector infomediario”, publicado por el Observatorio Nacional de las Telecomunicaciones y la Sociedad de la Información (ONTSI) en 2012, la reutilización de la información pública en España generó un volumen de negocio anual de entre 330 y 550 millones de euros, periodo en el que el sector empleó a una cifra de entre 3.600 a 4.000 puestos de trabajo para labores de reutilización de datos abiertos.

La actividad infomediaria (de reutilización de datos) de las empresas consideradas en el estudio representaba un 46% de la actividad total de las mismas. Por su parte, los ingresos asociados a la reutilización de información rondaron, en términos absolutos, los 600.000 euros por empresa. Según el informe, el sector infomediario coincidió en identificar esta actividad no sólo como una oportunidad para ofrecer nuevos productos y servicios sino, también, como una herramienta para fidelizar clientes.

Beneficios para el ciudadano

La principal ventaja para los ciudadanos es el acercamiento a los principios de gobierno abierto, aquel que escucha y entabla una permanente conversación con los ciudadanos y es capaz de facilitar la participación de la ciudadanía en la definición de sus políticas y en el ejercicio de sus funciones. Con la trasparencia, ahora de aplicación por ley, permite que los ciudadanos tengan una visión clara de las acciones y servicios de su administración así de cómo se están gestionando los recursos públicos.

El uso y utilización de los datos públicos, por otra parte, pueden generar diversas aplicaciones y nuevos servicios que doten de un valor social y mejoren la vida de los ciudadanos, de ese nuevo consumidor post consumista.

Beneficios para las administraciones públicas

Uno de los grandes beneficios para las administraciones públicas es la de reducir sustancialmente los costes de la realización de costosas aplicaciones que ahora pueden diseñar las empresas infomediarias, con la ventaja de que estas empresas generan un importante valor económico de la reutilización de los datos.

La administración también se beneficia de la colaboración con los ciudadanos, quienes colaboran activamente en la mejora del servicio público con contenidos generados por ellos mismos o ideas e iniciativas creadas y promovidas por ellos o nuevas prestaciones (aplicaciones) creadas a partir de los datos públicos liberados.

Por último, hay que destacar que el open data posibilita el intercambio de datos entre administraciones, resultando en una mayor eficiencia en el funcionamiento de la Administración y disminuyendo la carga de trabajo de los empleados públicos, al mejorar la colaboración entre ellos.

 

 

Blog de WordPress.com.

Subir ↑