Es útil realizar un resumen de los principales formatos, códigos y contenedores de archivo utilizados para la creación, el archivo y la concesión de datos.
CSV (Comma Separated Values): Formato de archivo para conjuntos de datos de base textual, che facilita la importación desde o la exportación hacia hojas de cálculo y bases de datos. El formato CSV separa los valores a través de comas (“comma”). Los archivos CSV pueden ser muy útiles porque son compactos y por lo tanto adecuados para la transferencia de grandes conjuntos de datos con la misma estructura. Sin embargo, el formato es tan espartano que los datos sin documentación son, a menudo, inútiles ya que resulta casi imposible identificar el significado de las diferentes columnas. Por lo tanto es fundamental que se proporcione una documentación adecuada (metadatos) junto a los archivos en formato CSV.
Hojas de cálculo: Muchos sujetos poseen información archivada en hojas de cálculo, como por ejemplo Excel. Estos datos pueden ser utilizados junto a la correcta descripción de lo que las columnas representan. Sin embargo, en algunos casos podría haber algunas funciones o fórmulas en las hojas de cálculo difíciles de gestionar.
Bases de datos: Las bases de datos permiten un acceso directo a los datos. Tienen la ventaja de consentir a los usuarios reunir y extraer sólo aquellos datos que les interesan. Pero hay algunos problemas de seguridad por lo que respecta a la extracción remota desde una base de datos. Por otra parte el acceso a la base de datos resulta útil solamente cuando la estructura de la base de datos y la importancia de las tablas y los campos están bien documentados.
RDF (Resource Description Framework): Es un lenguaje que define de qué forma las informaciones tienen que representarse en línea. RDF asocia datos a informaciones y documentos que circulan en la Red, permitiendo a la computadora comprender el contexto y el significado de las informaciones, consintiendo además la interoperabilidad entre varias aplicaciones que intercambian informaciones en Internet. En otras palabras, el formato RDF permite representar los datos de una forma que vuelve fácilmente integrables datos provenientes de fuentes diferentes.
HTML (Hyper-Text Markup Language): El lenguaje de marcas o marcado permite describir el formateo de un documento web, definiendo la visualización a través del protocolo HTTP. El lenguaje HTML permite generar enlaces a diferentes documentos consintiendo la organización y la construcción de hipertextos. Hoy día una gran cantidad de datos está disponible en formato HTML en diferentes sitios.
XML (eXtensible Markup Language): XML es un formato/lenguaje flexible ampliamente utilizado para intercambiar datos, porque proporciona buenas oportunidades para conservar la estructura de los mismos, asimismo consiente a los desarrolladores incluir parte de la documentación junto a los datos sin interferir en la lectura de los mismos.
JSON: JSON es un formato de archivo sencillo y muy fácil de leer para todos los lenguajes de programación. Su sencillez reside en la mayor facilidad de procesamiento para una computadora respecto a otros formatos.
Documento de texto: Documentos con formatos clásicos como Word o PDF pueden ser suficientes para mostrar algunos tipos de datos. Pueden ser compartidos con bajo coste ya que son los formatos en los que, a menudo, se crean los datos. Estos formatos no ayudan a mantener la estructura de con un formato coherente y frecuentemente es difícil, por no decir imposible insertar datos de forma automática.
Texto simple: Los documentos de texto (.txt) son muy fáciles de leer para las computadoras. A pesar de ello no incluyen informaciones estructurales en el interior del documento y esto provoca que los desarrolladores necesiten crear analizadores capaces de interpretar cada documento así como se presenta.
Imagen escaneada (scanner): Probablemente la forma menos adecuada para la mayoría de los datos, aunque los TIFF y los JPEG sean capaces de añadir detalles a lo que representa la foto (incluso insertando en la imágen un contexto integral contenido en el documento). Pueden, sin embargo ser útiles para la visualización en imagen de los datos que non han sido creados electrónicamente.
Formatos proprietarios: Algunos sistemas especializados tienen sus propios formatos de datos en los que pueden salvar o exportar datos. A veces puede ser también suficiente compartir los datos en estos formatos, sobretodo si se prevé un uso posterior en un sistema similar al de proveniencia. Debería proporcionarse siempre la información sobre dónde encontrar mayores informaciones sobre dichos formatos, por ejemplo enlaces al sitio web del proveedor. En general es aconsejable compartir datos utilizando formatos no propietarios.