Comment savoir si un fichier texte a été édité ou falsifié?

Drew Gibson

2016-01-09 19:15:19 UTC

view on stackexchange narkive permalink

Est-il possible de savoir si un fichier texte, par exemple au format XML, a-t-il été modifié ou falsifié au fil du temps?

Le contexte de ma question est le suivant:

Je suis un scientifique dans l'industrie utilisant une technologie appelée 'spectrométrie de masse (MS) ». MS est une technique analytique utilisée, par ex. dans l'analyse médico-légale pour déterminer si un composé particulier est présent dans un échantillon (par exemple, une drogue d'abus dans le sang ou l'urine).

Spécification de masse. Les fichiers de données sont généralement stockés au format de fichier plat selon les spécifications binaires privées du fournisseur de l'instrument - leur logiciel peut les traiter, mais rien d'autre ne le peut. Cependant, il existe des normes ouvertes pour les données MS et la plupart des fournisseurs prennent en charge l'exportation vers au moins une spécification ouverte. Ces normes ouvertes sont principalement basées sur XML de nos jours (par exemple mzML) et permettent le traitement avec des applications open source, et permettent également le stockage à long terme (> 10 ans) des données dans un format qui ne exigent que nous maintenions un ordinateur archivé et le système d'exploitation (ou VM) et le logiciel de traitement pendant de longues périodes.

Le format binaire du fournisseur offre au moins une certaine sécurité contre la falsification des données, mais les formats XML ne le font pas. D'où le problème - les formats ouverts sont très utiles pour fournir l'accès aux données sur des échelles de temps d'archivage, mais la sécurité est un problème.

Vous pouvez calculer les hachages des fichiers et les conserver dans une base de données sécurisée (avec des sauvegardes des originaux). Ensuite, si jamais vous suspectez une falsification, vous pouvez simplement recalculer les hachages et comparer, puis les remplacer par les sauvegardes si nécessaire.

Qui craignez-vous de les falsifier? Quel est votre modèle de menace?

* Le format binaire du fournisseur offre au moins une certaine sécurité contre la falsification des données * - Je suis presque certain que ce n'est pas le cas. Ce n'est pas parce que * vous * ne pouvez pas le lire et le modifier lorsque vous l'ouvrez avec un éditeur de texte que personne d'autre ne peut procéder au reverse-engineering du format et créer un éditeur pour celui-ci.

@philipp est correct - au mieux, c'est "la sécurité par l'obscurité" et ce n'est pas du tout une protection contre quiconque ayant des connaissances rudimentaires, un éditeur hexadécimal et un minimum de patience.

@JonathanGray - en supposant que les fichiers d'origine ne sont pas si volumineux, en quoi votre solution de hachage est-elle meilleure que le simple stockage d'une sauvegarde des données?

@iAdjunct Je présume que l'OP est préoccupé par les résultats de test falsifiés. Lorsque vous traitez avec des tests de dépistage de drogues, c'est une préoccupation légitime - imaginez ce qui se passerait si quelqu'un faussait les données d'un concurrent pour un emploi bien rémunéré, donnant l'impression qu'il est un drogué!

Euh, lisez-le avant et après. Si c'est différent, alors il a été modifié. Sinon, c'est pareil.

Vous avez fait une faute de frappe: le format binaire du fournisseur offre une sécurité ** zéro ** contre la falsification des données

@NeilSmithline Parce que les hachages pourraient être envoyés pour vérification au lieu de fichiers entiers.

Comme le dit notre [aide / sur le sujet], «La sécurité est un sujet très contextuel: les menaces jugées importantes dans votre environnement peuvent être sans conséquence chez quelqu'un d'autre, et vice versa. [...] Pour obtenir les réponses les plus utiles, vous devrait nous dire: quels actifs vous essayez de protéger; qui utilise l'actif que vous essayez de protéger et qui, selon vous, pourrait vouloir en abuser (et pourquoi); quelles mesures vous avez déjà prises pour protéger cet actif; quelles les risques que vous pensez devoir encore atténuer ". Je vous encourage à modifier la question pour ajouter ces informations, afin que nous puissions vous fournir les réponses de la meilleure qualité.

@philipp fait un excellent point. La première chose qui m'est venue à l'esprit était "étant donné le XML en texte brut et le binaire, il ne me faudra pas longtemps pour faire de l'ingénierie inverse du format de fichier propriétaire". À moins qu'ils ne cryptent réellement, cela devrait être simple. Tout au plus, ils ajouteront un en-tête d'identification à chaque valeur (https://en.wikipedia.org/wiki/Type-length-value) Je crains que vous deviez contacter chaque fournisseur individuellement et, même dans ce cas, ne le faites pas ' t attendez d'eux qu'ils divulguent les détails de leur "sauce secrète"; tout au plus, je m'attendrais à de vagues assurances de sécurité, sans détails).

Vous voudrez peut-être examiner un produit logiciel spécialement conçu pour stocker et gérer des données de laboratoire, comme un LIMS, un ELN (cahier de laboratoire électronique) ou un SDMS (système de gestion de documents scientifiques) - ils sont souvent utilisés dans des systèmes de qualité qui doivent répondre à la réglementation. normes telles que GMP, de sorte que les fournisseurs devraient bien connaître ce à quoi ces normes s'attendent et comment les respecter.

Merci pour tous les commentaires utiles. Le problème est le respect des exigences de sécurité des données des agences de réglementation. Ces agences voudront peut-être examiner n'importe quel aspect du développement d'un composé pharmaceutique et l'intégrité des données est une priorité de leur ordre du jour, et à juste titre.

Si c'est pour l'industrie pharmaceutique, je soupçonne fortement que vous devriez embaucher une certaine expertise professionnelle sur la conformité réglementaire - je suppose que votre employeur n'est pas réellement une entreprise pharmaceutique, sinon vous l'auriez déjà en interne?

C'est une solution commerciale, mais ils cochent probablement toutes vos cases: preuve d'intégrité et de temps, auditabilité, solution à long terme ... [www.guardtime.com] (http://www.guardtime.com)