La publicación de los datos
Site: | Universidad de la República |
Course: | Datos Abiertos como Recursos Educativos Abiertos - 2021 |
Book: | La publicación de los datos |
Printed by: | Guest user |
Date: | Wednesday, 4 December 2024, 11:38 AM |
1. Abriendo datos
Por Javiera Atenas
Un Dataset (conjunto de datos) es una colección de registros de datos organizados donde cada elemento tiene la misma estructura, ordenados para ser procesados por una computadora. Un conjunto de datos puede ser la lista de escuelas de un país, la lista de todos los contratos estatales para todas sus instituciones o el presupuesto general de la nación, por ejemplo ver: Earthdata
El mismo conjunto de datos puede tener múltiples distribuciones (o recursos) que pueden variar en dos dimensiones de la siguiente manera.
Temporal: en este caso, el mismo conjunto de datos tiene registros asociados con un tiempo. Por ejemplo, el presupuesto general de la nación tiene una versión diferente cada año, al igual que la lista de contratos de un gobierno.
Formato: cada conjunto de datos se puede representar en varios formatos. Por ejemplo, si consideramos que la lista de contratos gubernamentales se puede representar en una tabla, se puede digitalizar para abrirla con Acrobat Reader (en formato .pdf), o Microsoft Excel (.xls), mediante cualquier procesador de texto (. csv) o procesados por sistemas automatizados (.json), entre otros.
Se puede utilizar una amplia variedad de formatos para disponibilizar los datos al público; sin embargo, no todos cumplen los requisitos necesarios para definir dichos datos como "abiertos". El formato en el que se publica la información, es decir, la base digital con la que se almacena la información, puede, de hecho, ser abierta o cerrada. Un formato abierto es aquel en el que las especificidades del software están disponibles para cualquiera, de forma gratuita, para que cualquiera pueda utilizarlas en el propio software sin ninguna limitación de reutilización impuesta por los derechos de propiedad intelectual. Cuando, en cambio, el formato es cerrado, puede significar que el formato es propietario o cerrado y que las características técnicas no están disponibles públicamente o que el formato de archivo es propietario y, aunque las especificaciones técnicas son públicas, su uso es limitado.
La razón fundamental por la que es importante aclarar el significado de "abierto" y por qué utilizar exactamente esta definición se puede resumir en un término: interoperabilidad. Ésta es la capacidad de diferentes sistemas y organizaciones para trabajar juntos. En nuestro caso, es la capacidad de combinar una base de datos con otras. La interoperabilidad es la clave que permite la primera ventaja práctica de la apertura: aumenta exponencialmente la posibilidad de combinar diferentes bases de datos y así, desarrollar nuevos y mejores productos y servicios.
Además, la ventaja de los archivos en formatos abiertos es que esto permite a los desarrolladores producir software y servicios utilizando estos formatos. Esto minimiza los obstáculos para reutilizar la información que contienen. El uso de formatos propietarios puede generar dependencia de software de terceros o de los licenciatarios de los formatos. En el peor de los casos, esto puede significar que la información se puede leer utilizando solo un formato de software específico, lo que podría ser prohibitivamente caro o quedar desactualizado con el tiempo.
2. Publicando datos
Publicar datos en portales de datos abiertos de manera eficiente es clave para desarrollar estrategias que aborden lo siguiente:
¿Qué datos se publicarán de forma iterativa y cuándo? Se refiere a la hoja de ruta para publicar la información. Dado que los recursos generalmente son limitados, es difícil inicialmente publicar el 100% de toda la información disponible. Entonces, es importante tener una hoja de ruta para tener objetivos claros y priorizados en relación a lo que se publicará. y cuándo se logrará.
¿Dónde se publicarán los datos? ¿Cómo se publicarán los datos? Se refiere a la decisión de la dirección web (la URL) donde estará el portal de datos abiertos, así como las decisiones respecto a los formatos en los que se publicarán los datos (JSON, CSV, JSON-LD). Algunas cosas que son importantes a considerar son, por ejemplo, si incluirá una API para desarrolladores o si se esperan descargas masivas.
¿Cuál es la frecuencia de actualización de datos? Debe identificarse que hay conjuntos de datos que necesitan una frecuencia de actualización más alta que otros, y algunos, por ejemplo, requieren actualizaciones diarias (nocturnas, al mediodía, etc.), semanales, mensuales, etc.
¿Quién es el responsable de la publicación de los datos? Se refiere a los responsables de la gestión de datos (sistema, institución, etc.). En todos los casos, se debe especificar quién publica los datos y quién es el responsable de mantener su veracidad y calidad.
¿A quién contactar si tiene preguntas? Es importante explicar claramente cómo realizar consultas relacionadas con los datos, para evitar malos entendidos.
¿Qué licencia se utilizará para publicar los datos? La licencia define los permisos que otorga el propietario de los datos en relación con lo que pueden hacer los usuarios. Una licencia abierta (para datos abiertos) debe al menos requerir atribución a la fuente y redistribución con la misma licencia.
¿Dónde puedo encontrar más información de referencia? Debe haber un lugar dentro del portal de datos abiertos donde pueda acceder a más información sobre temas relacionados, como donde puede encontrar diccionarios de datos, manuales de datos o proporcionar enlaces a sitios donde puede encontrar estos datos.
¿Cuál es el marco regulatorio de referencia? Es muy importante contar siempre con todas las referencias necesarias relativas a políticas, leyes, decretos, resoluciones, circulares, etc., que sirvan de referencia a todo lo que se expone en el portal de datos abiertos.
3. Publicando datos abiertos
El enfoque técnico para la apertura de datos se basa en el esquema de apertura de datos de cinco estrellas definido por Tim Berners-Lee, un resumen del cual se puede ver en la figura de cinco estrellas. Este esquema propone una escala incremental de niveles de apertura de datos, donde cada nivel implica un avance en términos de los objetivos de los datos abiertos: libertad de uso, reutilización y redistribución.
Esquema de apertura de datos de cinco estrellas- Tim Berners-Lee (2012)
Para distinguir los diferentes formatos utilizables en la codificación de los set de datos, el inventor del Web, Tim Berners- Lee, propone un modelo de catalogación que los clasifica según sus características siguiendo una escala de valores que va de 1 (una estrella) a 5 (cinco estrellas):
★ Una Estrella. Es el nivel base, compuesto por archivos no estructurados: por ejemplo una imagen en un formato bruto (formatos como .gif, .jpg, .png), un documento in formato Microsoft Word, un file in formato Adobe PDF. Una única estrella indica la disponibilidad sencilla de una información y de un dato en línea, en un formato cualquiera. Los datos distribuidos en estos formatos son legibles e imprimibles por los usuarios, pueden guardarse en un PC y son sencillos de publicar. Sin embargo, no son un formato abierto ya que no se puede realizar sobre ellos ningún tipo de elaboración.
★★ Dos Estrellas. Este nivel indica datos estructurados pero codificados con un formato propietario. Por ejemplo un documento en formato Microsoft Excel. Los datos definidos con dos estrellas no son un formato abierto ya que para elaborarlos es necesario un software propietario, a pesar de esto normalmente pueden ser transformados - al ser datos estructurados - en datos abiertos.
★★★ Tres Estrellas. Este nivel indica datos estructurados y codificados en un formato no propietario. Por ejemplo el formato .csv (Comma Separated Values) en lugar de, por ejemplo, el formato Microsoft Excel utilizado en el caso anterior. Es posible realizar elaboraciones sobre estos datos sin tener la obligación de utilizar un software propietario. Se trata del formato más sencillo de datos abiertos.
★★★★ Cuatro Estrellas. Este nivel indica datos estructurados y codificados en un formato no propietario que los transforma en utilizables directamente en línea. Pensemos, por ejemplo, en una base de datos que contiene las direcciones de los monumentos de una ciudad convenientemente codificados: desde cualquier software - o desde el navegador - es posible conectarse a una URL que indica cada monumento pudiendo, por ejemplo georeferenciar cada monumento en un mapa.
★★★★★ Cinco Estrellas. Este nivel indica los datos que se definen como Datos abiertos conectados (Linked Open Data - LOD) son aquellos datos abiertos que desde el punto de vista del formato, además de responder a las características indicadas en el punto precedente, presentan también en la estructura del conjunto de datos (dataset), enlaces a otros conjuntos de datos. En otras palabras, es posible conectar dinámicamente entre ellos varios conjuntos de datos (dataset), cruzando de esta forma informaciones provenientes de fuentes diferentes, en caso de que fueran gestionadas por diferentes administraciones o entidades privadas.
4. El gran salto a la tercera estrella
La tercera estrella implica que los datos están en un formato no propietario, es decir, pueden ser consumidos y reutilizados por cualquier persona. Con este fin, las organizaciones de datos abiertos abogan por la estandarización de los formatos abiertos que se utilizarán para facilitar el trabajo de los consumidores de datos. Estos formatos se resumen en la siguiente tabla.
Formato | Descripción | Esquema Básico Propuesto |
Formato de datos tabulares en el que las columnas se delimitan con una coma, aunque normalmente se aceptan otros separadores como el punto y la coma. Si bien aún no está estandarizado, existen esfuerzos para definir buenas prácticas, como RFC 4810. | ||
Formato de intercambio de datos basado en el esquema clave-valor inspirado en el modelo de objetos de Javascript. La principal diferencia con el formato CSV es la capacidad de definir estructuras anidadas |
5. El tipo de datos a publicar
Un punto importante a tener en cuenta es que, según el tipo de datos a publicar, existen diferentes formatos a utilizar. Por ejemplo, si los datos son tabulares, es decir, están contenidos en una tabla, uno de los formatos más utilizados es CSV. Por otro lado, si los datos indican georreferenciación existen otros formatos especializados para representar esta información. A continuación, se muestran algunos de los tipos y formatos de datos más utilizados. Al diseñar una política de datos abiertos, se recomienda enfocarse en el usuario, consultar la demanda de datos y en base a esto priorizar los datos a publicar. A la hora de desarrollar un plan de apertura de datos abiertos, es necesario que quienes publican los datos, ya sea la academia o el sector público, analicen y comprendan cuáles son los conjuntos que podemos considerar de alto valor o de mayor relevancia, con el fin de priorizar su publicación en función de determinados factores, como su valor para las comunidades de usuarios o para promover la participación pública. También se deben considerar otros elementos que puedan surgir en casos de contingencia nacional o internacional, como los datos sobre emergencias o desastres naturales, epidemias o casos de corrupción, que necesitan ser publicados rápidamente.