3 de abril de 2018

Metadatos en tiempos de Big Data


Los metadatos son aquellos datos que describen los datos espaciales. Son datos invisibles por los cuales se nos pueden controlar. En esta entrada describiremos en detalle qué son los metadatos, su utilidad, y cómo crearlos y emplearlos.
¿Por qué los metadatos son importantes? 

La palabra metadata (o metadatos) se refiere a “los datos de los datos”. También se llama metadata a la información generada por los usuarios cuando usan tecnologías digitales. Por ejemplo, en el caso de un email o una llamada, son metadatos el horario, la fecha en que se envió y la localización desde que se conectó el usuario la última vez, entre otros. Esta información no revela el contenido de las comunicaciones, sino de las transacciones electrónicas para establecer las llamadas. Algunas veces podemos evitar que nuestro uso de un programa o aplicación recoja este tipo de información, pero otras veces no es posible. Esos datos existen y deberían ser protegidos.

Los metadatos revelan patrones, relaciones y comportamientos. Su conocimiento afecta nuestra privacidad, y muchas veces puede saberse más a través de ellos que examinando el contenido de esos mensajes, cosa que por otra parte es mucho más complicada e imposible cuando hay cantidades masivas de datos a analizar, sin una muestra específica o limitada.

Metadatos: qué son y cómo leerlos
Cuando vas a comprar una bolsa de patatas o una caja de galletas en el supermercado, echándole un vistazo verás que incluye información nutricional y sus ingredientes, así como dónde se fabricó o quién lo distribuye. El equivalente digital es el metadato.
Podemos encontrar metadatos en prácticamente cualquier fichero digital: documentos HTML, archivos de sistema, fotografías, vídeos, audios y canciones, documentos de texto, hojas de cálculo…
Los metadatos son muy útiles porque aportan información adicional a la que obtenemos simplemente abriendo un archivo o accediendo a una página web. Además, sirven para su organización, catalogación o para mejorar las prestaciones de aplicaciones o servicios.

Herramientas online para leer metadatos
ExtractMetadata o Visor de Metadatos en español, esta práctica herramienta online nos ayuda a desentrañar qué metadatos esconde un archivo o documento que tengamos en nuestro ordenador o a partir de un enlace web.
La ventaja es que lee distintos formatos de imagen, vídeo, documento o audio: HTML, PDF, PS, Microsoft Office (Word DOC, Excel XLS, Powerpoint PPT), StarOffice (SDW), OpenOffice (SXW), DVI, MAN, FLAC, MP3, OGG, WAV, EXIV2, JPEG, GIF, PNG, TIFF, DEB, RPM, TAR(.GZ), ZIP, ELF, S3M , XM , AVI, FLV, REAL, RIFF, MPEG, QT y ASF.

Get-Metadata es compatible con varios formatos, como por ejemplo WEBM, WAV, GIF, 3GP, DOC, PNG, XLSX, MOV, MP3, PDF, SVG, MP4, ZIP, DOCX y JPG.
Arrastras el archivo a la ventana principal y obtendrás información al respecto en documentos, vídeos y fotografías. En concreto, tamaño y formato, datos RAW y MIME, fechas de creación y modificación, resolución, etc.

Metapicz se encarga de mostrar los metadatos de imágenes. La herramienta es muy sencilla. Subes la imagen o indicas su dirección online y verás la cámara con que se hizo, localización GPS y datos XMP, EXIF e ICC. Como curiosidad, Metapicz cuenta con extensión para WordPress.

EXIF Data Viewer, también especializado en imágenes y fotografías,  lee varios formatos de archivos de hasta 20 MB. En concreto, puedes subir o aportar el enlace de imágenes JPG, TIFF, GIF, PNG, PSD, BMP, RAW, CR2, CRW, PICT, XMP y DNG.
EXIF Data Viewer muestra un resumen de los datos más importantes, así como datos más técnicos, permisos de escritura, resolución, etc.

Metashield Clean-up Online, en caso que, además de ver qué metadatos ofrece un archivo, quieres borrarlos para no aportar excesiva información en la red. 
La herramienta funciona vía web y es compatible con documentos de Microsoft (DOC, DOCX, PPT, PPTX, PPS, PPSX, XLS, XLSX, XLSM, XLTX, XLSB, TMP, XAR, ASD, WBK, XLK XLT, WPD), OpenOffice (ODT, ODS, ODG, ODP, SXW, ODF, OTT, OTH, ODM, OTG, OTP, OTS), iWorks (PAGES, KEY, NUMBERS), así como imágenes (JPG, RAW, PNG, TIFF, TIF, SVG, CR2, CRW), audio y vídeo (MP3, AVI, MP4) y otros (ZIP, TAR, PDF, RTF, RDP…).
Sin registro tendremos acceso a la información que ofrece el archivo o documento, y mediante registro, podremos limpiar esos datos.

¿Una foto habla más de la cuenta?
Si nos gusta el mundo de la fotografía, igual habrá muchas fotografías que nos hayan llamado la atención y queramos saber más de ellas, entre otras cosas, desde qué cámaras se han captado, qué sensibilidad ISO han usado o qué apertura de diafragma y velocidad de obturación han tenido, información que podremos consultar en los metadatos EXIF de las mismas.

A continuación vamos a subir una foto a Metapicz y analizar los megadatos:



Entre muchos otros datos se puede advertir, en primer lugar, la marca y el modelo del dispositivo con el que fue tomada la fotografía, y en segundo lugar, la fecha y hora exactas. Sin embargo, la información más sensible en este caso es la ubicación geográfica, que revela la ubicación exacta del usuario. Teniendo en cuenta la amplia conectividad móvil disponible hoy en día, es frecuente que las personas se saquen fotos estando de vacaciones y las suban a las redes sociales. Con esta información de GPS, un cibercriminal podría saber que quien tomó la foto está fuera de su casa.

Aprovechando los servicios gratuitos disponibles en Internet, como por ejemplo Google Maps, se pueden colocar las coordenadas para encontrar la ubicación en un mapa, como se muestra a continuación: clic en https://www.google.es/maps y buscamos por las coordenadas de Latitude y Longitude:







Como podemos comprobar los metadatos de las fotos revelan información como: fecha y hora en la que fue tomada la fotografía, el modelo del dispositivo y versión del sistema operativo, los parámetros utilizados para sacar la foto (tiempo de exposición, apertura de diafragma, distancia focal…).

Este tipo de información podría parecer simple y poco sensible, pero podría simplificarle las cosas a un atacante, ya que al saber el tipo de dispositivo que usa su posible víctima, podrá buscar los exploits, que es la llave para acceder a nuestro sistema.

La Extensible Metadata Platform (XMP) es el estándar de metadatos que utilizan las aplicaciones de Adobe. Los metadatos que se almacenan en otros formatos, como Exif, IPTC (IIM), GPS y TIFF, se sincronizan y se describen con XMP para que se puedan ver y gestionar con mayor facilidad. Por ejemplo, los ajustes realizados a las imágenes con RAW de cámara de Adobe se almacenan como metadatos XMP. El estándar XMP se basa en XML. En este caso podemos comprobar que la foto esta retocada a través de un sistema operativo Android.


Un perfil ICC es un conjunto de datos que caracteriza a un dispositivo de entrada o salida de color, o espacio color, según los estándares promulgados por el Consorcio Internacional del Color (ICC). Los perfiles describen los atributos de color de un dispositivo en particular o requisito de visionado por la definición de una correspondencia entre el dispositivo origen espacio color objetivo y un espacio de conexión de perfil. En la foto podemos apreciar los metadatos ICC Perfil, con sus características.

No hay comentarios:

Publicar un comentario