Entendiendo los datos abiertos

Site: Universidad de la República
Course: Datos Abiertos como Recursos Educativos Abiertos - 2021
Book: Entendiendo los datos abiertos
Printed by: Guest user
Date: Monday, 2 December 2024, 9:27 PM

1. Video introductorio

Autoras: Javiera Atenas - Chiara Ciociola

Datos abiertos y ciudadanía, el poder de los datos abiertos, Canal 13 Colombia

2. Definiendo los datos abiertos

Autoras: Javiera Atenas - Chiara Ciociola

Gracias a la evolución constante de la tecnología, los contenidos informativos y los datos que poseen las administraciones públicas, representan una magnífica ocasión para favorecer la transparencia en las acciones de gobiernos y administraciones, para ofrecer servicios más eficientes y también, ya que facilitan la reutilización por parte de otros sujetos públicos y privados, para que sean utilizados en ámbitos diferentes de aquellos para los que han sido producidos o recogidos.  

Qué son los Datos Abiertos

Para explicar mejor qué son los Datos Abiertos necesitamos especificar qué son los “datos”. Los datos están estrechamente relacionados con hechos, son potencialmente reproducibles, forman parte de estructuras informativas más vastas, pueden ser elaborados y archivados de formatos digitales.

En pocas palabras: datos informaciones conocimiento conciencia

El dato, que no es neutro, se transforma en información cuándo va creado, extraído, elaborado y utilizado con unos objetivos preestablecidos. El sistema de informaciones, a menudo compuesto por datos del mismo o diferente tipo (el conjunto de datos se define “dataset”), se transforma en conocimiento cuando se interpreta gracias a herramientas, aplicaciones, métodos, cruces, indicadores, etc..

El conocimiento, en práctica, adquiere el valor de la concientización - en el caso de los Datos Abiertos se puede definir de tipo “colectivo”, entendido como “bien común” - cuando al mismo le otorgamos la función de cambio y mejora de la realidad (los hechos) interpretada y “abierta” gracias a los datos.

 

3. Datos gubernamentales abiertos

Los datos abiertos gubernamentales son datos públicos en formato abierto y accesibles para todos los ciudadanos, sin licencia de derechos de autor u otros límites legales para su utilización, que permiten:

-           Volver transparente la administración. El acceso libre a documentos, actas e informaciones de la administración pública y a las decisiones político-institucionales correlativas, es un aspecto fundamental para la transparencia dentro de las instituciones y para la propia democracia, ya que de esta forma los ciudadanos pueden comprobar la eficiencia de la Administración Pública. Además, los ciudadanos SON la Administración Pública. 

-           Volver abierta la administración. Distribuir los datos públicos con un formato abierto y libre de restricciones sea desde el punto de vista del acceso que de la reutilización, representa el presupuesto de base para que pueda desarrollarse no solo un verdadero proceso de colaboración entre las instituciones y las comunidades ciudadanas acerca de las elecciones de los gobiernos, sino también sobre la reelaboración de forma nueva y diferente de los datos disponibles. A través de estrategias de apertura de los datos de la Administración Pública, los ciudadanos tienen la oportunidad de reutilizar e integrar los datos que les han puesto a su disposición, hasta desarrollar servicios y aplicaciones con ventajas para la entera comunidad de usuarios.

Barómetro de Datos Abiertos de América Latina y el Caribe

Barómetro de Datos Abiertos de América Latina y el Caribe

En este sentido es relevante la edición regional del Barómetro de Datos Abiertos (Open Data Barometer – ODB por sus siglas en inglés), iniciada en 2020, por la Iniciativa Latinoamericana de Datos Abiertos (ILDA).

Esta investigación se propuso evaluar diferentes iniciativas de datos abiertos en América Latina y el Caribe, con el fin de tener una imagen más clara de cómo está la región en este campo, aprender de las mejoras realizadas por gobiernos que podrían llevar a fortalecer la colaboración horizontal y reflexionar acerca de las políticas de datos abiertos y sus resultados.

Barómetro

4. Raw data o los datos en crudo

Evidentemente, por lo que respecta a los Datos Gubernamentales Abiertos, es de esperar que la información se entregue en formatos de archivo abiertos legibles para máquinas (machine-readable). Sin embargo, en el caso de que la elección estuviera entre publicar datos non completamente conformes a los requisitos  establecidos anteriormente o no publicarlos, la lógica de los Datos Abiertos tiende hacia la primera opción. En este caso se habla de “Raw Data Naw” “Puesta a disposición de datos en crudo”: en el peor de los casos (disponer de datos no abiertos) es preferible distribuirlos, incluso si efectivamente están en formato “raw” , es decir “en crudo”. El auspicio es que si los datos publicados son suficientemente interesantes, la comunidad de usuarios se preocupará de transformarlos más adelante en datos abiertos (se habla en este caso de "data scraping" es decir, literalmente “rascar datos”).

5. Los Datos Abiertos deben ser

-           completos: es decir, tienen que incluir todos los elementos que permiten exportarlos, utilizarlos en línea y sin conexión, integrarlos y agregarlos con otros recursos y divulgarlos en la red;

-           tempestivos: se debe proporcionar a los usuarios las condiciones para acceder y utilizar los datos presentes en la red de forma rápida e inmediata;

-           accesibles: los datos deben estar a disposición del mayor número posible de usuarios sin barreras para su utilización, preferiblemente sin que tengan que recurrir a plataformas propietarias. Además, tienen que estar disponibles sin ningún tipo de suscripción de contrato, pago, registro o solicitud;

-           legibles para las computadoras: es necesario que los datos sean legibles para máquinas (machine-readable), es decir procesables automáticamente por un ordenador/una computadora;

-           en formatos no propietarios : los datos deben estar codificados en formatos abiertos y públicos, sobre los que no haya entidades (empresas u organizaciones) que tengan el control exclusivo;

-           libres de licencias que limiten su uso: los datos abiertos se caracterizan por licencias que no limitan su uso, difusión o distribución;

-           reutilizables: los usuarios deben tener la posibilidad de reutilizarlos e integrarlos hasta poder crear nuevos recursos como aplicaciones y servicios de utilidad pública o procomún;

-           buscables/estudiables: los datos tienen que ser fácilmente identificables en la red gracias a catálogos indexables con facilidad por los motores de búsqueda.


6. Formato abierto e interoperabilidad

Para poner a disposición del público los datos es posible utilizar una amplia variedad de formatos. Sin embargo, no todos responden a los requisitos necesarios para definir tales datos como “abiertos”. 

El formato con el que se publican las informaciones, o sea la base digital con la que se memorizan las informaciones, puede ser de hecho abierto o cerrado. Un formato abierto es aquél en el que las especificidades del software están disponibles para cualquiera, gratuitamente, de modo que cualquiera pueda utilizarlas en el propio software sin alguna limitación de reutilización impuesta a través de derechos de propiedad intelectual. Cuando,  en cambio, el formato está cerrado puede significar que el formato es propietario y que las características técnicas no están disponibles públicamente o que el formato del archivo es propietario y, aunque las especificaciones técnicas sean públicas, su uso es limitado.

La razón fundamental por la que es importante aclarar el significado de “abierto” y de porqué utilizar exactamente esta definición la podemos resumir con un término: interoperabilidad. La interoperabilidad  es la capacidad que tienen diferentes sistemas y organizaciones para trabajar juntos. En nuestro caso, es la capacidad de combinar una base de datos (database) con otras. La interoperabilidad es la llave que nos permite obtener la primera ventaja práctica de la apertura: aumenta de forma exponencial la posibilidad de combinar diferentes bases de datos y, por lo tanto desarrollar nuevos y mejores productos y servicios.  

Además, la ventaja de los archivos con formatos abiertos es evidente puesto que permiten a los desarrolladores producir software y servicios utilizando dichos formatos. Este aspecto reduce al mínimo los obstáculos para reutilizar las informaciones que contienen. En cambio, usar formatos propietarios, puede provocar dependencia de software de terceros o de los poseedores de las licencias de los formatos. En el peor de los casos, esto puede suponer que la información se puede leer utilizando solamente un formato específico de software, que podría tener un coste prohibitivo o quedarse obsoleto con el tiempo.

7. Formatos y tipologías de datos

Es útil realizar un resumen de los principales formatos, códigos y contenedores de archivo utilizados para la creación, el archivo y la concesión de datos.

CSV (Comma Separated Values): Formato de archivo para conjuntos de datos de base textual, che facilita la importación desde o la exportación hacia hojas de cálculo y bases de datos. El formato CSV separa los valores a través de comas (“comma”). Los archivos CSV pueden ser muy útiles porque son compactos y por lo tanto adecuados para la transferencia de grandes conjuntos de datos con la misma estructura. Sin embargo, el formato es tan espartano que los datos sin documentación son, a menudo, inútiles ya que resulta casi imposible identificar el significado de las diferentes columnas. Por lo tanto es fundamental que se proporcione una documentación adecuada (metadatos) junto a los archivos en formato CSV.  

Hojas de cálculo: Muchos sujetos poseen información archivada en hojas de cálculo, como por ejemplo Excel. Estos datos pueden ser utilizados junto a la correcta descripción de lo que las columnas representan. Sin embargo, en algunos casos podría haber algunas funciones o fórmulas en las hojas de cálculo difíciles de gestionar.

Bases de datos: Las bases de datos permiten un acceso directo a los datos. Tienen la ventaja de consentir a los usuarios reunir y extraer sólo aquellos datos que les interesan. Pero hay algunos problemas de seguridad por lo que respecta a la extracción remota desde una base de datos. Por otra parte el acceso a la base de datos resulta útil solamente cuando la estructura de la base de datos y la importancia de las tablas y los campos están bien documentados.

RDF (Resource Description Framework): Es un lenguaje que define de qué forma las informaciones tienen que representarse en línea. RDF asocia datos a informaciones y documentos que circulan en la Red, permitiendo a la computadora comprender el contexto y el significado de las informaciones, consintiendo además la interoperabilidad entre varias aplicaciones que intercambian informaciones en Internet. En otras palabras, el formato RDF permite representar los datos de una forma que vuelve fácilmente integrables datos provenientes de fuentes diferentes.

HTML (Hyper-Text Markup Language): El lenguaje de marcas o marcado permite describir el formateo de un documento web, definiendo la visualización a través del protocolo HTTP. El lenguaje HTML permite generar enlaces a diferentes documentos consintiendo la organización y la construcción de hipertextos. Hoy día una gran cantidad de datos está disponible en formato HTML en diferentes sitios.

XML (eXtensible Markup Language): XML es un formato/lenguaje flexible ampliamente utilizado para intercambiar datos, porque proporciona buenas oportunidades para conservar la estructura de los mismos, asimismo consiente a los desarrolladores incluir parte de la documentación junto a los datos sin interferir en la lectura de los mismos.

JSON: JSON es un formato de archivo sencillo y muy fácil de leer para todos los lenguajes de programación. Su sencillez reside en la mayor facilidad de procesamiento para una computadora respecto a otros formatos.

Documento de texto: Documentos con formatos clásicos como Word o PDF pueden ser suficientes para mostrar algunos tipos de datos. Pueden ser compartidos con bajo coste ya que son los formatos en los que, a menudo, se crean los datos. Estos formatos no ayudan a mantener la estructura de con un formato coherente y frecuentemente es difícil, por no decir imposible insertar datos de forma automática.

Texto simple: Los documentos de texto (.txt) son muy fáciles de leer para las computadoras. A pesar de ello no incluyen informaciones estructurales en el interior del documento y esto provoca que los desarrolladores necesiten crear analizadores capaces de interpretar cada documento así como se presenta.

Imagen escaneada (scanner): Probablemente la forma menos adecuada para la mayoría de los datos, aunque los TIFF y los JPEG sean capaces de añadir detalles a lo que representa la foto (incluso insertando en la imágen un contexto integral contenido en el documento). Pueden, sin embargo ser útiles para la visualización en imagen de los datos que non han sido creados electrónicamente.

Formatos proprietarios: Algunos sistemas especializados tienen sus propios formatos de datos en los que pueden salvar o exportar datos. A veces puede ser también suficiente compartir los datos en estos formatos, sobretodo si se prevé un uso posterior en un sistema similar al de proveniencia. Debería proporcionarse siempre la información sobre dónde encontrar mayores informaciones sobre dichos formatos, por ejemplo enlaces al sitio web del proveedor. En general es aconsejable compartir datos utilizando formatos no propietarios.

8. Tipologías de datos abiertos

Los datos abiertos frecuentemente hacen referencia a informaciones representadas en forma de bases de datos y referidas a los temas más disparatados: cartografía, genética, compuestos químicos, fórmulas matemáticas y científicas, datos y prácticas médicas, biociencias, datos del censo y registro civil, datos gubernamentales, estadística, economía, etc.



Por ejemplo, podemos distinguir algunos tipos de conjuntos de datos abiertos según los siguientes grupos temáticos:

  • Geodatos: datos utilizados para realizar mapas, por ejemplo la localización de calles y edificios, la topografía, la visualización de los confines, la georeferenciación de establecimientos comerciales, etc.;
  • Cultura: datos referidos a obras y productos culturales (por ejemplo: títulos, autores, etc.) y por lo general conservados en bibliotecas, galerías, archivos, museos;
  • Ciencias: datos producidos como parte de la investigación científica, de la astronomía a la zoología;
  • Economía y Finanzas: datos relativos a las cuentas públicas (ingresos y gastos), informaciones sobre mercados financieros (títulos, obligaciones, acciones, etc.);
  • Estadísticas: datos producidos por oficinas y servicios de estadística, indicadores sociales, económicos, demográficos, etc.
  • Meteorología: los diferentes tipos de datos utilizables para comprender y anticipar la metereología y el clima;
  • Medio Ambiente y Salud: informaciones relativas al medio ambiente (presencia y nivel de factores contaminantes, calidad de las aguas, residuos), a las tasas y causas de mortalidad, a la incidencia de enfermedades en determinadas zonas, etc.  
  • Transportes: horarios, recorridos, estadísticas sobre tiempos de recorrido, etc.


9. El valor económico de los datos abiertos

La apertura de datos públicos no determina solamente efectos importantes sobre las administraciones públicas de muchos países del mundo, a través de la simplificación de los procedimientos y el ahorro de tiempo, además también produce un impacto relevante sobre la economía global: las estimaciones internacionales señalan ventajas relevantes, con efectos ampliamente medibles incluso a través de sus efectos en el sistema económico empresarial, gracias a la utilización de datos cartográficos, sobre los transportes, los bienes culturales, demográficos, inmobiliarios, ocupacionales y sociales para producir aplicaciones y servicios.

Casi todas las informaciones públicas tienen, por lo demás, un valor intrínseco, que va más allá del cumplimiento de las obligaciones institucionales de la entidad que las posee. Incluso cuando cada información tiene una importancia limitada, a menudo la lectura en serie histórica, la recolección de datos organizada y la combinación de muchas informaciones con fuentes diferentes permite atribuir un valor relevante a aquella información, además de generar un valor añadido notable. .

Así, por ejemplo, las informaciones geográficas son la base de mapas y planos, las cuales pueden ser útiles para proporcionar servicios en línea de todo tipo, mientras que los datos inmobiliarios pueden ser útiles a operadores e institutos de crédito que quieren hacer coincidir la oferta con la domanda de alojamiento para poder proponer soluciones de financiación. Los datos meteorológicos se pueden utilizar sea para servicios con valor añadido en tiempo real (como por ejemplo las funciones “push” para smartphone con previsiones selectivas del tiempo), sea para alimentar los sitios meteo más tradicionales. Los datos sobre transportes pueden servir para alimentar servicios con informaciones sobre movilidad. Los datos sobre los presupuestos de las empresas ofrecen importantes informaciones de mercado para realizar análisis de la competencia y estudios sobre escenarios económicos útiles para los decisores públicos o para cualquiera que necesite realizar una estrategia de inversión.

Los datos e informaciones públicas, si se vuelven disponibles y utilizables, pueden transformarse en contenidos “activadores” de nuevos y a veces imprevisibles actividades y servicios con valor añadido para los usuarios constituidos por ciudadanos, empresas y administraciones.


10. Beneficios de los Datos Abiertos

El gobierno de Canadá resume los Beneficios de los Datos Abiertos de la siguiente manera:

Apoyo a la innovación: el acceso a los recursos del conocimiento en forma de datos apoya la innovación en el sector privado al reducir la duplicación y promover la reutilización de los recursos existentes.

  • Fomento de la rendición de cuentas del gobierno y la reforma democrática: el mayor acceso a los datos y la información del gobierno brinda al público una mayor comprensión de las actividades gubernamentales, la prestación de servicios y el uso del dinero de los impuestos.
  • Aprovechar la información del sector público para desarrollar productos comerciales y de consumo: el acceso abierto y sin restricciones a los datos científicos con fines de interés público, en particular la información estadística, científica, geográfica y ambiental, maximiza su uso y valor, mientras que la reutilización de los datos existentes en aplicaciones comerciales mejora tiempo de comercialización para empresas.
  • Mejor uso de la inversión existente en infraestructura de información comunitaria y de banda ancha: Canadá ha invertido en redes de información y comunicaciones en forma de infraestructura técnica y servicios comunitarios, como bibliotecas y agencias de servicios sociales.
  • Apoyo a la investigación: el acceso a los datos de investigación federales respalda la investigación primaria basada en evidencia en las comunidades de investigación académica, del sector público y de la industria canadiense e internacional. El acceso a colecciones de datos, informes, publicaciones y artefactos que se encuentran en instituciones federales permite el uso de estas colecciones por parte de los investigadores.
  • Brindar acceso a la información de servicios del sector público: para posibilitar la toma de decisiones informadas, por ejemplo, estadísticas de viajes aéreos en tiempo real, puede ayudar a los viajeros a elegir una aerolínea y comprender los factores que pueden provocar retrasos en los vuelos.
  • Divulgación proactiva: proporcionar de manera proactiva datos que sean relevantes para la ciudadanía reduce la cantidad de acceso a solicitudes de información, campañas de correo electrónico y consultas de los medios. Esto reduce en gran medida el costo administrativo y la carga asociados con la respuesta a tales consultas.