Un Dataset (conjunto de datos) es una colección de registros de datos organizados donde cada elemento tiene la misma estructura, ordenados para ser procesados por una computadora. Un conjunto de datos puede ser la lista de escuelas de un país, la lista de todos los contratos estatales para todas sus instituciones o el presupuesto general de la nación, por ejemplo ver: Earthdata
El mismo conjunto de datos puede tener múltiples distribuciones (o recursos) que pueden variar en dos dimensiones de la siguiente manera.
Temporal: en este caso, el mismo conjunto de datos tiene registros asociados con un tiempo. Por ejemplo, el presupuesto general de la nación tiene una versión diferente cada año, al igual que la lista de contratos de un gobierno.
Formato: cada conjunto de datos se puede representar en varios formatos. Por ejemplo, si consideramos que la lista de contratos gubernamentales se puede representar en una tabla, se puede digitalizar para abrirla con Acrobat Reader (en formato .pdf), o Microsoft Excel (.xls), mediante cualquier procesador de texto (. csv) o procesados por sistemas automatizados (.json), entre otros.
Se puede utilizar una amplia variedad de formatos para disponibilizar los datos al público; sin embargo, no todos cumplen los requisitos necesarios para definir dichos datos como "abiertos". El formato en el que se publica la información, es decir, la base digital con la que se almacena la información, puede, de hecho, ser abierta o cerrada. Un formato abierto es aquel en el que las especificidades del software están disponibles para cualquiera, de forma gratuita, para que cualquiera pueda utilizarlas en el propio software sin ninguna limitación de reutilización impuesta por los derechos de propiedad intelectual. Cuando, en cambio, el formato es cerrado, puede significar que el formato es propietario o cerrado y que las características técnicas no están disponibles públicamente o que el formato de archivo es propietario y, aunque las especificaciones técnicas son públicas, su uso es limitado.
La razón fundamental por la que es importante aclarar el significado de "abierto" y por qué utilizar exactamente esta definición se puede resumir en un término: interoperabilidad. Ésta es la capacidad de diferentes sistemas y organizaciones para trabajar juntos. En nuestro caso, es la capacidad de combinar una base de datos con otras. La interoperabilidad es la clave que permite la primera ventaja práctica de la apertura: aumenta exponencialmente la posibilidad de combinar diferentes bases de datos y así, desarrollar nuevos y mejores productos y servicios.
Además, la ventaja de los archivos en formatos abiertos es que esto permite a los desarrolladores producir software y servicios utilizando estos formatos. Esto minimiza los obstáculos para reutilizar la información que contienen. El uso de formatos propietarios puede generar dependencia de software de terceros o de los licenciatarios de los formatos. En el peor de los casos, esto puede significar que la información se puede leer utilizando solo un formato de software específico, lo que podría ser prohibitivamente caro o quedar desactualizado con el tiempo.