Question:
Le changement de ton est-il suffisant pour anonymiser la voix d'une personne?
reed
2020-03-11 19:32:06 UTC
view on stackexchange narkive permalink

Dans chaque émission télévisée où il y a une personne qui veut rester anonyme, elle change de voix d'une manière qui pour moi ressemble à une simple augmentation ou diminution de la hauteur (fréquences). Ce que je me demande, c'est:

  • est-ce que la méthode d'anonymisation habituelle est en fait basée sur un simple changement de ton, ou s'agit-il d'une transformation plus complexe que la plupart des téléviseurs / médias / etc. utilisent?
  • Un simple changement de hauteur est-il suffisant pour rendre impossible, ou très difficile en tout cas, la récupération de la voix d'origine? Je penserais que si une voix a été modifiée pour avoir une hauteur plus élevée, en abaissant la hauteur, je pourrais essayer d'obtenir la voix d'origine, mais je ne suis pas sûr à quel point elle pourrait être dure ou fiable

Notez que je parle simplement de la qualité de la voix, pas d'autres fonctionnalités qui, bien sûr, pourraient immédiatement désanonymiser une personne (comme l'accent, le dialecte, le vocabulaire personnel et l'argot, etc.)

Là encore, les appelants ne sont généralement pas identifiés par leur voix mais par le fait que le coup de sifflet distinctif d'un certain train et le son d'une espèce extrêmement rare de pic sont entendus en arrière-plan ...
Cinq réponses:
Polynomial
2020-03-11 21:49:10 UTC
view on stackexchange narkive permalink

Un simple changement de hauteur est insuffisant pour masquer une voix, car un adversaire pourrait simplement renvoyer l'audio pour récupérer l'audio d'origine.

La plupart des modulateurs de voix utilisent un vocodeur, pas un simple changement de hauteur. Le terme «vocodeur» est malheureusement assez surchargé ces jours-ci, donc pour clarifier, je veux dire le type qui est le plus généralement utilisé dans la musique, plutôt qu'un vocodeur de phase, un remappeur de hauteur ou un codec vocal.

Le chemin cela fonctionne comme suit:

  1. L'audio de l'entrée vocale (appelé signal de modulation) est divisé en tranches de temps, et son contenu spectral est analysé. Dans le DSP, cela est généralement mis en œuvre à l'aide d'une FFT, qui traduit efficacement un signal du domaine temporel - une séquence d'amplitudes dans le temps - dans le domaine fréquentiel - une collection de signaux de fréquence croissante qui, s'ils sont combinés , représentent le signal. Dans la pratique, les mises en œuvre produisent une grandeur et une valeur de phase pour chacun d'un nombre fixe de «compartiments», où chaque compartiment représente une fréquence. Si vous deviez générer une onde sinusoïdale pour chaque bucket, à l'amplitude et au décalage de phase émis par la FFT, puis additionnez toutes ces ondes sinusoïdales ensemble, vous obtiendriez une approximation très proche du signal d'origine.
  2. Un signal porteur est généré. C'est le son synthétisé que vous souhaitez faire sonner à votre modulateur de voix, mais en règle générale, il doit être assez large. Une approche courante consiste à utiliser des types de synthés avec beaucoup d'harmoniques (par exemple, des ondes en dents de scie ou carrées) et d'ajouter du bruit et de la distorsion.
  3. Le signal de la porteuse passe à travers une banque de filtres dont les fréquences centrales correspondent à celles de la FFT seaux. Les paramètres de chaque filtre sont déterminés par la valeur de son compartiment associé. Par exemple, on peut appliquer un filtre coupe-bande avec un facteur Q élevé et moduler le gain du filtre avec la sortie FFT.
  4. Le signal modulé résultant est la sortie.

Voici un schéma assez grossier d'une approche analogique:

Channel vocoder

L'entrée audio est divisée en plusieurs bandes de fréquences à l'aide de filtres passe-bande, qui ne traversent chacun qu'une plage de fréquences étroite. Les blocs «processus» prennent les résultats et effectuent une sorte de détection d'amplitude, qui devient alors un signal de commande pour les amplificateurs commandés en tension (VCA). Le chemin en haut génère la forme d'onde porteuse, généralement en effectuant une détection d'enveloppe sur l'entrée et en l'utilisant pour piloter un oscillateur commandé en tension (VCO). La porteuse est ensuite filtrée en bandes de fréquences individuelles par les filtres passe-bande sur la droite, qui sont ensuite entraînés à travers les VCA et combinés dans le signal de sortie. L'approche dans son ensemble est très similaire à l'approche DSP décrite ci-dessus.

Des effets supplémentaires peuvent également être appliqués, tels que le pré et le post-filtrage, le bruit et la distorsion, le LFO, etc., afin d'obtenir l'effet désiré.

La raison pour laquelle il est difficile d'inverser est que l'audio d'origine n'est jamais réellement transmis à la sortie. Au lieu de cela, les informations sont extraites de l'audio d'origine, puis utilisées pour générer un nouveau signal. Le processus est intrinsèquement suffisamment lent pour qu'il soit assez prohibitif à inverser.

Le polynôme est correct.Juste pour étendre cependant, la modification de la «hauteur» ne fait que déplacer tout le signal vocal vers le haut ou vers le bas dans le domaine fréquentiel.Ainsi, cela ne modifie pas réellement le signal d'une autre manière, et pour récupérer l'original, il vous suffit de le déplacer en arrière.Certes, vous devez deviner où cette fréquence centrale peut avoir été à l'origine, mais la parole humaine ne varie pas beaucoup à cet égard, et on peut simplement deviner ce qui sonne bien à leurs oreilles.Ainsi, un pitch n'est certainement pas suffisant.
Existe-t-il des théorèmes mathématiques établissant que la sortie est difficile à inverser (quelle que soit la formalisation)?
@comfreek 1) Le processus est avec perte.Les informations sont supprimées.* "... seulement une gamme de fréquences étroite ..." * C'est comme les vieux téléphones qui coupaient les fréquences au-dessus et en dessous d'une certaine limite.2) Il y a un bruit aléatoire injecté.Bonne chance pour enlever ça.3) Certaines harmoniques sont perdues.Ce sont les clés pour construire le timbre de la voix.https://en.wikipedia.org/wiki/Human_voice
@Mindwin Ce sont tous de bons arguments pragmatiques.Je cherchais davantage un théorème rigoureusement prouvé - dans le même esprit que la cryptographie assure la sécurité des écoutes / CPA / CCA pour certains algorithmes de cryptage à clé symétrique.La reconnaissance de la voix humaine est peut-être trop complexe pour être facilement modélisée.
@ComFreek "l'information est perdue" suffit à prouver rigoureusement que la voix originale ne peut pas être * parfaitement * reconstruite.Alors maintenant, il s'agit simplement de savoir à quel point vous voulez que la "reconstruction la plus proche possible" soit de la voix originale, et cela dépend de votre modèle de menace.L'adversaire a-t-il déjà réduit les possibilités à deux personnes aux sons très différents?Ou essaie-t-il d'identifier une voix complètement inconnue parmi tous les humains?Des niveaux d'imperfection très différents sont nécessaires entre ces cas.
@ComFreek Nous n'avons pas de preuves CCA / CPA pour la cryptographie à l'exception du chiffrement de Vernam pour autant que je sache.Nous avons toutes sortes de preuves d'équivalence, etc., mais rien de tel que AES ou RSA ou autre n'a jamais été prouvé pour être sûr.Parfois, les choses qui sont prouvées équivalentes sont puissantes et nous avons tendance à croire que les précurseurs sont difficiles bien sûr, mais chaque preuve de CPA / CCA à peu près tout autre résultat cryptographique commence par supposer que A nous pouvons montrer que B a une propriété.
Je pense que vous voudriez également modifier la cadence du discours.Les phrases, les pauses, etc. peuvent être distinctives.
Si un changement de hauteur est simple à inverser mais qu'un modulateur de voix ne l'est pas, pourquoi la parole est-elle anonymisée en utilisant ce dernier si souvent joué à une hauteur tellement inférieure à celle d'une personne normale?
@Will L'effet vocodeur lui-même n'a pas d'effet spécifique sur la hauteur.Ce pitch down est devenu un peu un trope des films, probablement parce qu'un ton anormalement bas semble menaçant.Cela présente peut-être également des avantages mineurs en termes d'audibilité sur une ligne téléphonique, car la fréquence de coupure supérieure dans la plupart des systèmes de téléphonie est d'environ 3,4 kHz, bien que ce soit plus une supposition éclairée que quelque chose que je peux concrètement sauvegarder.
@shoover Les formulations caractéristiques et les erreurs de prononciation / orthographe sont très souvent utilisées comme preuves circonstancielles dans les cas où un enquêteur tente d'attribuer des communications (vocales ou textuelles) à une personne spécifique.Ces types de traits persistent certainement dans les systèmes de modification de la voix, et il est pratiquement impossible pour une personne de les cacher efficacement.La synthèse vocale réduit le risque de divulgation d'un trait identifiable, mais est toujours susceptible de révéler des informations sur vous via des tournures de phrase particulières ou l'utilisation d'idiomes culturels.
Bien sûr, pour de meilleurs effets, le processus peut être légèrement aléatoire au fil du temps pour rendre la démodulation plus difficile.
@comfreek votre demande est valable et valable.Cependant, cela dépasse la portée de cette question particulière.Vous devriez ouvrir une nouvelle question demandant exactement cela.Je voterais positivement.
Recherchez SIGSALY pour l'application de cela au cryptage vocal pendant la Seconde Guerre mondiale.Le PCM complet n'était pas pratique à l'époque, et les techniques analogiques laissaient toujours quelque chose d'intelligible derrière (pour la même raison que vous pouvez toujours voir Tux dans cette bitmap cryptée par ECB: la redondance) alors ils ont utilisé un vocodeur, l'ont exécuté avec un échantillon suffisamment bas.taux que la sortie pourrait être codée MFSK et survivre à la transmission par téléphone, a ajouté un cryptage à cela et a resynthétisé la parole à l'extrémité du récepteur.
Nat
2020-03-15 02:03:19 UTC
view on stackexchange narkive permalink

tl; dr - Ce n'est généralement pas réversible, mais cela pourrait quand même être inversé dans la pratique.


Analogie: réversibilité de réduire un nom à sa longueur.

Considérez une méthode de réduction qui prend en compte le prénom d'une personne et donne le nombre de lettres qu'il contient. Par exemple, "Alice" est transformé en 5.

Il s'agit d'un processus avec perte, donc il ne peut généralement pas être inversé. Cela signifie que nous ne pouvons généralement pas dire que 5 correspond nécessairement à "Alice" , car il pourrait également correspondre, par exemple, à "David" .

Cela dit, sachant que la transformation est 5 contient encore beaucoup d'informations dans la mesure où nous pouvons exclure tout nom qui ne se transforme pas en 5 . Par exemple, ce n'est évidemment pas "Christina".

Alors maintenant, disons que vous êtes un détective de police, essayant de résoudre une affaire. Vous avez réduit les suspects à Alice et Bob, et vous savez que le nom anonyme du coupable était 5 . Bien sûr, vous ne pouvez pas généralement inverser 5 , mais est-ce que ce point théorique aide vraiment Alice dans ce cas?


Point: Perte les transformations vocales ne sont généralement pas réversibles, mais elles fuient toujours des informations.

Dans le bon vieux temps, avant les ordinateurs et autres, cela aurait peut-être suffi à transformer sa voix sans perte. Ensuite, si un tiers voulait récupérer la voix de l'orateur d'origine, il ne pouvait pas - ce qui, à l'époque, l'aurait probablement été.

Aujourd'hui, nous pouvons utiliser des ordinateurs en:

  • Établissez l'ensemble des possibilités avec leurs probabilités antérieures balisées.

  • Exécutez le logiciel d'anonymisation de la voix symboliquement pour générer un ensemble probabiliste de voix.

  • Prenez le produit interne de cet ensemble avec, par exemple, un ensemble de suspects pour générer un ensemble informé de probabilités.

  • Cette méthode est générale pour toute transformation qui n'est pas complètement avec perte. Cependant, l'utilité des informations obtenues variera en fonction du degré auquel la méthode d'anonymisation a entraîné des pertes; une transformation à faible perte peut encore être largement réversible en pratique bien qu'elle ne soit généralement pas réversible, tandis qu'une transformation à perte importante peut donner si peu d'informations utiles qu'elle serait pratiquement irréversible.

    Shiv
    2020-04-08 09:33:38 UTC
    view on stackexchange narkive permalink

    Non, ce n'est certainement pas sûr.

    Si je devais le faire, j'utiliserais la parole en texte puis je dicterais en utilisant une voix courante comme celle de Stephen Hawking. Cela élimine complètement toute information vocale réelle.

    La seule chose qui reste serait d'anonymiser votre style de dialecte en formalisant / normalisant votre vocabulaire / vos phrases.

    Honnêtement, cette dernière étape est extrêmement difficile . Normaliser une pensée est extrêmement complexe. Cependant, vous divulgueriez des informations personnellement identifiables sans cela.

    Petro
    2020-04-13 08:25:14 UTC
    view on stackexchange narkive permalink

    Comme pour tout InfoSec, cela dépend de vos menaces et des ressources de vos adversaires.

    Si vous essayez de jouer une blague à votre grand frère, un faux accent suffit. Si vous essayez de tromper votre femme, c'est plus difficile.

    Si vous essayez de mener une conversation complexe contre un adversaire avec des ressources techniques suffisantes, en fonction du contexte, cela va être presque impossible sans une assistance significative, à moins que vous ne soyez d'accord avec le fait qu'il vous connaisse cache ta voix.

    Le problème n'est pas le pitch, ce sera toutes sortes de choses que vous faites inconsciemment. Vous avez des «slogans», des choses que vous dites. Vous avez une cadence dans votre discours, votre utilisation des mots et, plus important encore, des mots spécifiques que vous utilisez systématiquement à mauvais escient. Vous aurez quelques mots que vous prononcerez différemment de la plupart des gens, ou un accent régional, etc. C'est presque comme une empreinte digitale.

    Vous pouvez vous entraîner à partir de certaines de ces choses là où vous l'attrapez, mais alors CELA devient votre empreinte digitale.

    Vous pourriez peut-être (si vous êtes un bon acteur) "Adoptez le rôle" et changer délibérément plusieurs de ces choses "juste pour le rôle", puis abandonnez-le une fois terminé. Cela va tromper de nombreux types d'analyses, mais c'est BEAUCOUP de travail et vous devez être actif à chaque fois.

    P i
    2020-03-13 09:42:51 UTC
    view on stackexchange narkive permalink

    Nous sommes maintenant à l'ère du Machine Learning.

    Toute obfuscation obtenue grâce à la transformation d'informations ne doit pas être considérée comme sécurisée. Pas maintenant. Certainement pas contre la technologie future. ML est capable d'inverser la transformation.

    Vous pouvez penser à cela en termes de topologie de manifold. Supposons qu'une photo de chaton soit déformée, projetée sur une variété. Disons un cylindre. Tout comme un cerveau humain peut percevoir la variété et déplier l'image, le ML le peut aussi.

    Pour obtenir une véritable obscurcissement, l'information CONTENT doit être séparée de l'information STYLE. Ceci peut également être réalisé via ML.

    Vous pouvez regarder les images de https://towardsdatascience.com/a-neural-algorithm-of-artistic-style-a-modern-form -of-creation-d39a6ac7e715 pour en avoir une idée visuelle.

    Un anonymiseur de voix à l'ancienne pourrait diviser l'audio entrant en vecteurs de fonctionnalités MFCC et reconstruire les vecteurs en audio.

    S'il est un peu plus avancé, il pourrait briser ces MFCC en phonèmes chronométrés, puis reconstruire l'audio à partir de celui-ci.

    L'approche la plus sûre serait d'utiliser les technologies STT-> TTS existantes .

    Mais simplement changer de hauteur n'est pas mieux que d'enrouler une photo de chaton autour d'un cylindre. Vous pouvez toujours savoir si c'est votre chaton ou non.

    1. «Parce que la magie (ML) pourrait la vaincre» n'est pas une réponse.2. Vous avez assimilé la photo du chaton à l'anonymisation de la voix, mais vous n'avez pas prouvé ni expliqué comment ils peuvent être relatés.Pouvez-vous expliquer ou développer ce que vous entendez par «vecteurs de caractéristiques MFCC» et «technologies STT-> TTS»?Celles-ci semblent être les points valables de votre réponse, mais vous ne fournissez pas suffisamment pour être en mesure de les comprendre.
    Je serais également curieux à ce sujet.Les techniques d'apprentissage automatique, comme les réseaux de neurones, sont des fonctions composites entraînées sur un ensemble de données.Si vous utilisez des techniques d'obscurcissement qui suppriment réellement des données et y ajoutent potentiellement du caractère aléatoire, les gens peuvent toujours les comprendre comme une voix.Cependant, si vous deviez essayer de former un NN à reconstruire l'original, il devrait deviner et interpoler pour essayer de récupérer les données perdues et décalées au hasard ... cela ne peut probablement pas être prouvé qu'il s'agit d'une version inversée à 100% duobscurcissement, jamais.
    @JarrodChristman le but n'est pas d'inverser parfaitement la transformation, mais de récupérer la voix "empreinte" avec une fidélité suffisante pour que le locuteur puisse être identifié.Cette réponse pourrait être améliorée, mais souligne très bien que les techniques modernes d'apprentissage automatique (par exemple les auto-encodeurs) peuvent très efficacement inverser les transformations préservant les informations.Le but d'un anonymiseur est donc de détruire les informations d'identification du locuteur sans détruire la capacité de l'auditeur à discerner le contenu linguistique.
    @reo, dépend de la menace qui vous préoccupe.S'il s'agit d'une menace légale, je pense que vous avez une très bonne défense pour écarter la voix reconstruite comme preuve.
    Bizarre que cela soit si fortement critiqué.C'est 100% correct.Il est facile de synthétiser artificiellement une centaine d'heures d'audio décalé et de le transmettre à un ML.Il apprendra comment décaler l'audio.Les MFCC sont en effet une transformation audio très courante utilisée dans STT, exactement parce que la transformation supprime la variation des haut-parleurs.Cela rend STT plus facile et pour la même raison en fait un choix raisonnable en matière d'anonymisation de la voix.


    Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
    Loading...