En ocasiones las fugas de información se producen no por acción maliciosa externa o interna, si no por el simple descuido o desconocimiento. Una de las posibles fuentes de fugas de información inadvertidas son los metadatos.
Los metadatos, o “datos sobre los datos” son información normalmente oculta en los ficheros los que trabajamos habitualmente presentes de procesadores de texto, bases de datos u hojas de cálculo. Estos son introducidos automáticamente por el software para incluir información adicional de uso interno al aplicativo o bien por los usuarios y mantenidos posteriormente.
Dependiendo del tipo de fichero en estos metadatos podemos encontrar desde información técnica útil para un intruso como direcciones ip, nombres de host, nombres de usuario, etc... hasta directamente datos sensibles, ya que los cambios realizados para censurar información confidencial en ocasiones pueden ser revertidos a partir de los metadatos que habitualmente se guardan para la función de deshacer cambios en el documento.
Los metadatos no pasaron inadvertidos a los investigadores de seguridad y a si hoy en día existen diversas herramientas que permiten explotarlos. Una de la primera de ellas fue Metagoofil, capaz de recolectar a través de google documentos públicos de una organización dada para luego analizarlos en busca de metadatos. Aunque posteriormente un software con funciones similares se hizo famoso por la extracción de metadatos, este fue FOCA una herramienta para la realización de procesos de fingerprinting e information gathering en trabajos de auditoría web, y que ya hemos usado anteriormente en nuestro blog para la entrada Estrategias Militares en el Ciberspacio II: Elegir el campo de batalla. El éxito de la herramienta FOCA contribuyo a que la empresa española Informatica64, sus autores, crearan toda una serie de sucesores y productos derivados como FOCA Online, Forensic FOCA, OOMetaExtractor o el software de prevención de fuga de información por metadatos MetaShield Protector.
El peligro de los metadatos evidenciado por herramientas como FOCA ha llevado a algunas organizaciones que manejan habitualmente información clasificada a utilizar mecanismos para prevenir estos riesgos. Una de estas soluciones es el sistema CLEAR (Content Locator, Examination, Analysis, and Reporting), la herramienta empleada por el Departamento de Defensa, las agencias de inteligencia y el gobierno federal norteamericano.
Se trata de un desarrollo conjunto de Camber Corporation y la Oficina de Inteligencia Naval (del inglés Office of Naval Intelligence o ONI) , en particular CLEAR funciona como una herramienta web. Sus usuarios pueden subir desde su navegador ficheros de diversos formatos que incluyen Word, PowerPoint, Excel, o PDF a una web que realiza un análisis en busca de problemas potenciales con metadatos asi como otras fuentes de fugas de información , emitiendo un informe de incidencias detectadas y nivel de riesgo potencial. En última instancia esto permite al usuario realizar medidas correctivas y tomar una decisión de si la información contenida en el archivo está debidamente clasificada.
Además CLEAR no se limita al análisis de metadatos, incorpora toda una serie de análisis que van desde la detección de virus y malware embebido en el fichero, la presencia de imágenes en formato raw o editable, la existencia de macros o funciones de scripting, ficheros y objetos embebidos, la presencia de determinadas palabras usadas como marcadores de clasificación que pueden significar que la información debe ser protegida e incluso detecta si el documento contiene palabras malsonantes o “dirty words” que puedan poner en un aprieto al autor del documento.
Aunque como hemos comentado CLEAR es una herramienta web, sería una violación flagrante de las más elementales normas de seguridad si los usuarios de la misma subieran a una web pública en internet documentos que pueden contener datos clasificados. Por ello CLEAR existe como herramienta en cada una de las redes de manejo de información clasificada de la comunidad militar y de inteligencia estadounidense, ya que cada uno de estos entornos suele encontrarse separado no solo de internet si no entre ellos mismos. Así cuando un usuario de SIPRNET (Secret Internet Protocol Router Network) versión de Internet de clasificacion SECRET que opera el departamento de defensa de Estados Unidos quiere hacer uso de CLEAR lo hace mediante el acceso a la url http://dodiisclear.dia.smil.mil , mientras que si el usuario se encuentra en la red JWICS , Joint Worldwide Intelligence Communications System, red de nivel TOP SECRET que interconecta a la comunidad de inteligencia de EEUU lo hace mediante la url http://icclear.csp.ic.gov
CLEAR continúa evolucionando para hacer frente a las nuevas amenazas en el ambito de la fuga de información y proporcionar nuevas capacidades. Según los documentos disponibles en fuentes abiertas sobre CLEAR la lista de mejoras futuras incluye: la generación automatica de ficheros "saneados", soporte de PKI para la autenticación de inicio de sesión, soporte de dominios cruzados, soporte para upload de múltiples ficheros, opciones para responsables de seguridad o el análisis de archivos adjuntos en correos electrónicos. El objetivo final de CLEAR es convertirse en la solución estandarizada frente a fugas de información tanto dentro del Departamento de Defensa o la comunidad de inteligencia norteamericana, como fuera ya que Camber anuncia la proxima disponibilidad de una versión comercial para entornos corporativos.