Question:
Ne jamais épeler un mot de la même manière deux fois?
jackvsworld
2015-01-30 01:45:06 UTC
view on stackexchange narkive permalink

Il y a longtemps, je lisais sur les chiffrements de la Renaissance et je me suis souvenu de cette citation:

David Kahn, auteur de The Codebreakers, cite Giovanni Battista Porta qui a publié, en 1563, un célèbre livre cryptographique, De Furtivis Literarum Notis:

"Il a encouragé l'utilisation de synonymes en texte clair, notant que" Cela rendra également difficile l'interprétation si nous évitons la répétition du même mot. Comme les Argentis, il a suggéré des fautes d'orthographe délibérées de mots en clair : "Car il vaut mieux qu'un scribe soit considéré comme ignorant que de payer la pénalité pour la détection de plans" », a-t-il écrit."

Cette idée de mal orthographier délibérément les mots me intrigue. Je me demande, est-ce une technique qui pourrait potentiellement être efficace contre les systèmes modernes de surveillance de masse?

Par exemple, dans un système de surveillance de masse de type NSA qui signale certains des mots-clés désignés, pourraient délibérément mal orthographier des mots (dans un e-mail ou un SMS, par exemple) potentiellement être utilisés pour éviter la détection?

  le bobm est hdiden isnide teh parlaimnet biuldnig 

L'idée est que cela fonctionnerait un peu comme un CAPTCHA, rendant le message obscurci pour les ordinateurs mais toujours lisible par l'homme. Est-ce réaliste?

"Vaincre le système?" De quelle manière voulez-vous dire? Les fautes d'orthographe en elles-mêmes peuvent aider à vous identifier (si c'est ce que vous vouliez dire), et bien sûr, ils auront des algorithmes pour rechercher «bombe» et «bobm» dans leur contexte. Alors, que demandez-vous?
Il est très probable qu'ils vérifient en effet les fautes d'orthographe courantes (et moins courantes). Tout comme les craqueurs de mots de passe vérifieront les fautes d'orthographe ou les substitutions courantes.
Les choses qui améliorent la sécurité des chiffrements classiques ne sont pas toujours applicables à la cryptographie moderne. Les chiffrements plus anciens avaient un modèle de menace très différent, donc les choses qui fonctionnaient alors ne fonctionneront souvent pas dans les systèmes modernes. En passant, je suis presque sûr que la dernière phrase n'a absolument rien à voir avec un déni plausible; ce à quoi il fait référence, c'est que quelqu'un qui mal orthographie des tonnes de mots aura l'air de ne pas pouvoir épeler (c'est-à-dire un peu idiot), mais il vaut mieux avoir l'air de ne pas pouvoir épeler que de faire découvrir des plans.
Eh bien, en 1563, le chiffre César était à peu près à la pointe de la technologie, donc le conseil était certainement valable, étant donné les modèles évidents. Les chiffrements modernes utilisent des vecteurs d'initialisation et du chaînage de blocs (ou des moyens similaires, compteur ou que voulez-vous) et avalanche sur un seul morceau de différence.
@schroeder J'ai changé "vaincre le système" pour "éviter la détection". Fondamentalement, ce que je demande est: est-ce que des mots mal orthographiés intentionnellement (par exemple «bobm» au lieu de «bombe») dans un e-mail / SMS serait un moyen efficace d'éviter d'être signalé par un système de surveillance de masse?
Si vous voulez des messages obscurcis pour les ordinateurs mais lisibles par l'homme, vous feriez mieux d'enseigner à ces humains un nouveau langage aussi complexe et déroutant et non standard que les langues Dené.
Incorporer un code dans les fautes d'orthographe d'un texte innocent ressemble à une puissante [méthode stéganographique] (https://en.wikipedia.org/wiki/Steganography), mais vous ne semblez pas vouloir dire cela.
Cinq réponses:
Mark
2015-01-30 03:21:15 UTC
view on stackexchange narkive permalink

Ce qui est décrit est une protection contre certaines classes d ' attaques en texte clair connu. Jusque dans les années 1960 environ, la plupart des chiffrements étaient vulnérables à ces derniers (par exemple, la plupart des attaques contre le chiffrement Enigma étaient basées sur la connaissance ou la supposition d'une partie du texte en clair). Les chiffrements modernes sont efficacement immunisés contre cela: savoir que le message chiffré AES est "Attack at dawn" ne permet pas de déterminer quelle est la clé.

Utiliser des synonymes, des fautes de frappe et des orthographes alternatives aider à vaincre la surveillance des mots clés. Le système est automatisé et l'ajout de mots-clés est bon marché.

AaronLS
2015-01-30 05:35:34 UTC
view on stackexchange narkive permalink

J'imagine que le contexte de cette déclaration était dans le contexte d'un chiffrement où un mot répété à plusieurs endroits produit le même texte chiffré à chaque endroit. Si je vois:

AER TEO ZRE SGR. AER FSD ZFD DFG. YTR ASD AER DSG.

L'analyse du langage révélerait que "AER" est probablement "The", et à partir de là, si vous interceptez un nombre suffisant de messages chiffrés, vous pouvez commencer à déterminer d'autres mots à partir du modèle d'utilisation et créer un mappage inversé. Notez également que cela nous permet de déterminer le message original du chiffrement de manière fragmentaire, sans jamais réellement «casser» le chiffrement. Les conseils de l'auteur aident à atténuer cette technique en réduisant les répétitions / modèles dont l'analyse du langage pourrait s'attaquer. Ils pourraient comprendre le mappage inversé pour "the", mais si vous avez utilisé d'autres synonymes pour "the", son utilisation dans ces autres emplacements ne sera pas aussi évidente.

Modern Cyphers, si utilisé incorrectement , a en fait cette même faiblesse.

Si je crypte une phrase telle que "Le renard saute par-dessus le pont." en utilisant Cipher-block chaining (CBC), alors le premier chiffre "the" sera différent du second "the" car les données précédemment chiffrées "waterfalls" à chaque bloc suivant provoquent des valeurs identiques pour ne presque jamais produire le même chiffre. Ainsi, l'attaque ci-dessus n'est généralement pas applicable.

Si toutefois j'utilise la méthode la plus faible du livre de codes électronique (ECB), alors les deux "" testeront (techniquement pourrait , voir les commentaires) avoir le même texte chiffré, et donc être vulnérable à des attaques similaires. Comme exemple de la façon dont la BCE peut être "modelée", jetez un œil à cette image chiffrée avec ECB :

http://en.wikipedia.org/wiki/Block_cipher_mode_of_operation#mediaviewer/File:Tux_ecb.jpg

Il est possible de diviser un CBC en un ECB plus faible s'il est mal utilisé en divisant un long message en messages plus petits. Dans le cas extrême, considérez si vous divisez chaque mot en son propre message, en commençant et en terminant un nouveau traitement CBC pour chaque mot. Quelqu'un sur le fil verrait la série de messages et remarquerait que certains seraient identiques car ils chiffrent tous les deux exactement le même message. (cela suppose la même clé / IV utilisée pour chaque message / mot)

Un autre scénario est où vous utilisez le même vecteur d'initialisation pour plusieurs petits messages. Le début du message, et / ou si le message est plus petit que la taille IV, alors le même message (ou au moins le début d'un message qui est identique), aura le même texte chiffré. J'ai en fait vu des gens faire l'erreur de découper leur message en morceaux pour le transférer sur le fil, puis de crypter chaque morceau séparément, ce qui produit ce type de vulnérabilité de livre de codes.

Donc, Mark est surtout parfait en identifiant que les cyphers modernes ne sont pas vulnérables au type d'attaque contre laquelle les conseils de l'auteur essaient de se protéger. La raison en est que les cyphers modernes recommandent que la BCE ne soit pas utilisée (livre de codes électronique).

Cependant, si vous utilisez le chiffrement moderne d'une manière qui le fait devenir essentiellement un livre de codes, alors vous pourriez atténuer le risque en tenant compte des conseils de l'auteur sur les différents synonymes. Donc, le conseil est quelque peu applicable, mais c'est plus un bandage faible par rapport à la correction de votre méthode de cryptage de telle sorte que ce ne soit pas une méthode de livre de codes.

Pour répondre à certaines de vos révisions / commentaires: Ce à quoi l'auteur fait référence (une protection atténuante contre les vulnérabilités du livre de codes), et l'idée que la NSA marque certains mots, sont en réalité deux concepts complètement orthogonaux. Le premier concerne la rupture de code et les protections contre la rupture de code. Ce dernier s'exprime sous l'hypothèse que la NSA a déjà accédé au texte en clair du message, et n'essaie pas de casser un type de cryptage, mais simplement d'identifier les «messages d'intérêt».

Avec ECB , "chien" et "chiot" auront un texte chiffré extrêmement différent, de sorte que toute similitude entre les mots disparaîtra après le chiffrement. Si "chien" était utilisé à 20 endroits dans un message chiffré par la BCE, son texte chiffré apparaîtrait à 20 endroits. Si vous utilisiez à la place une liste d'argot de 20 mots différents pour chien, alors vous auriez 20 textes chiffrés différents et il ne serait pas évident qu'ils soient liés. C'est le concept que je crois que l'auteur avait en tête.

D'un autre côté, la technique suggérée par l'auteur "pourrait" fonctionner pour éviter de marquer par un scanner de "message d'intérêt", mais pour des raisons pour lesquelles l'auteur original suggérait cette technique. Dans ce scénario, la technique n'aura presque aucune efficacité car si la NSA utilise quelque chose du niveau de sophistication que Google utilise pour son moteur de recherche, elle identifiera facilement des mots et des synonymes similaires. Il existe déjà de nombreux algorithmes pour analyser la "distance" entre deux mots afin d'identifier les fautes d'orthographe, et il existe certainement des listes de synonymes facilement disponibles.

En termes de fautes de frappe pour éviter la surveillance des mots-clés, l'exécution du message d'exemple via un correcteur orthographique produit "la bombe est cachée à l'intérieur du parlement à minuit" - des mots assez proches et suffisamment "sensibles" pour qu'il puisse être signalé pour examen humain.
Le risque que de nombreux petits messages soient transférés à la BCE est la raison pour laquelle vous ne voulez jamais chiffrer uniquement le message lui-même. Un cryptosystème pratique s'en prémunirait par exemple en chiffrant toujours un bloc de bruit aléatoire avant le message. De cette façon, il ne se transforme pas en ECB même si vous envoyez beaucoup de messages courts comme "oui" et "non".
Pour être pédant, même ECB n'est pas tout à fait * que * mauvais: vous devez avoir un bloc de chiffrement complet de texte en clair répété (généralement 8 ou 16 octets, selon le chiffrement), aligné juste à droite, avant d'obtenir des répétitions. dans le texte chiffré. Je ne recommande certainement pas le mode ECB pour une utilisation pratique (sauf comme élément de base pratique pour des modes plus sûrs), mais vous avez besoin de plus que simplement "* Le renard saute par-dessus le pont. *" Pour le casser.
@Agrajag correct, et généralement en utilisant un IV différent avec chaque message sert cet objectif. Si le IV est généré correctement, alors il a les attributs pour servir de ce "bruit" au début de chaque message.
Steve Jessop
2015-01-30 20:36:07 UTC
view on stackexchange narkive permalink

Si je recherche sur Google "parlaimnet biuldnig", je vois:

Affichage des résultats pour le parlement Cherchez plutôt parlaimnet biuldnig

Donc non, ces erreurs d'orthographe ne sont pas suffisantes pour tromper les systèmes automatisés ou pour agir comme un CAPTCHA.

Cependant, la recherche de "the bobm" Google ne m'offre pas de correction, donc la technique n'est pas forcément totalement inutile . Cependant, je n'y attacherais pas beaucoup d'importance.

Si vous faites partie d'une conspiration, vous pouvez dans tous les cas accepter des mots de code et transmettre:

Le renard est caché à l'intérieur du poulailler.

Il est peu probable que cela se produise via un balayage large et peu profond pour les bavardages terroristes. J'espère. Si je me trompe, je suppose que ma porte est sur le point d'être fermée.

La mesure proposée est donc:

  • peu fiable: vous ne savez pas si votre texte peut être corrigé automatiquement avec succès
  • d'une applicabilité limitée: vous devez parler à quelqu'un avec qui vous voulez converser secrètement, mais avec qui vous ne pouvez pas utiliser de cryptage fort ou même un code simple convenu.
  • légèrement nuisible au canal de communication, dans le sens où vous «utilisez» une partie de la capacité des humains à corriger les erreurs de votre message. Plus il est «faux» au départ, plus il y a de chances qu'une erreur accidentelle le rende inintelligible pour le destinataire.
  • potentiellement autodestructrice. Si les criminels en abusent de manière prévisible, les autorités peuvent commencer à évaluer la communication pour la précision de l'orthographe et traiter les erreurs d'orthographe excessives ou inhabituelles comme un facteur de suspicion. Ce ne serait pas trop difficile à balayer pour les personnes qui savent parfaitement épeler lorsqu'elles parlent à certains de leurs correspondants, mais apparemment pas quand elles parlent à d'autres. Bien que si j'étais les autorités, je m'attendrais à ce que la première tentative d'un tel balayage se présente essentiellement à vous et à la plupart des adolescents ;-) Quoi qu'il en soit, la technique pourrait être tout aussi identifiable que les mots qu'elle cherche à dissimuler.

Avec ces restrictions, il pourrait avoir une utilisation limitée, sur une base strictement "pourrait aussi bien l'essayer".

Ce n'est pas à un million de kilomètres de la pratique assez courante en chinois d'utiliser des jeux de mots ou d'autres mots semblables pour éviter la censure et la surveillance: cela ne fonctionne vraiment comme une mesure de sécurité parce que les autorités peuvent suivre dans une certaine mesure, mais cela aide parfois un peu. Il fut aussi un temps où la mauvaise orthographe de «viagra» (y compris en utilisant des homoglyphes ou des quasi-homoglyphes comme «1» pour «i») faisait fureur parmi les spammeurs, parce que les filtres anti-spam automatisés utilisaient une simple correspondance de mots. Vraisemblablement, cela a quelque peu aidé, pendant un certain temps.

Je crois que la mesure proposée s'ajoute à une sorte de cryptage, pour éviter une analyse de fréquence sur le chiffre qui permettrait de le casser. Pensez à un chiffrement de substitution, par exemple, où les modèles de parole peuvent vous vendre, éviter le modèle de parole serait une bonne contre-mesure, faute de cryptage moderne.
@gnp: c'était le cas pour la mesure proposée initialement par Giovanni Battista Porta en 1563, mais le questionneur demande une application différente de celle-ci.
linac
2015-01-30 20:13:24 UTC
view on stackexchange narkive permalink

Tapez votre exemple dans un moteur de recherche de votre choix. Au moins Google n'a aucun problème pour corriger les mots pertinents, Bing les corrige même tous.

Entrée:

le bobm est hdiden isnide teh parlaimnet biuldnig

Google:

la bombe est cachée à l'intérieur du bâtiment du parlement

Bing:

le la bombe est cachée à l'intérieur du bâtiment du parlement

Les ordinateurs sont devenus assez bons pour corriger les mauvaises orthographes humaines. Ce type d'obfuscation pourrait pour - certains algorithmes - aider contre les attaques en clair mais il en introduit problème potentiel:

Si le message peut être déchiffré, de telles erreurs "aléatoires" aident à identifier l'auteur. Les humains sont vraiment de mauvais "générateurs de nombres aléatoires". Donc, si les erreurs ne sont pas introduites automatiquement ou si chaque membre de la conversation utilise les mêmes erreurs (ce qui l'affaiblit davantage), avec suffisamment de messages, cela contient plus d'informations que juste le contenu.

J'aime penser que quelqu'un, quelque part, surveille vos habitudes de recherche et commence à s'inquiéter * fortement *.
@BiscuitBaker J'espère que personne ne regarde le mien ..... Ils seraient choqués!
@IsmaelMiguel: Vous voulez dire que vous espérez que personne n'analyse vos recherches. Ils ont presque certainement déjà été regardés, enregistrés, stockés ...
@IsmaelMiguel Ils regardent tous. Google stocke vos recherches et lit vos e-mails, balises et enregistrements analytiques où vous êtes allé. Des balises partout. C'est pourquoi j'utilise Ghostery.
@AShelly et Pharap, je sais qu'ils regardent !!! Juste ... Justt ... Suivez les blagues! >. <
J'ai en fait été surpris que cette question soit déjà parmi les premiers résultats de Google en l'essayant. Ils sont rapides ... Ayant fait les recherches sur mon lieu de travail, je pourrais avoir des questions lundi.
Jackson
2015-01-30 14:28:39 UTC
view on stackexchange narkive permalink

. . . est-ce qu'une faute d'orthographe délibérée des mots pourrait être utilisée pour éviter la détection?

le bobm est hdiden isnide teh parlaimnet biuldnig

Changer les lettres serait ne fonctionne pas très bien; les étudiants de premier cycle en informatique peuvent résoudre ce problème avec un simple solveur d'anagrammes.

Pour quelque chose d'un peu plus difficile à détecter, vous pouvez essayer différentes lettres, comme:

the bom is hidun ensiduh le parleemeant billdung

purrfect, nobuddy marche pour prendre ce fil bom siriusly.
AilixrrffdCMT gooby plz ;D
Corrige à «la foule est hi dun Enkidu el parlement bouse de loi», mais les mots corrects sont dans les dix premiers matchs pour chaque faute d'orthographe.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...