Les spammeurs génèrent automatiquement de nouveaux commentaires en prenant les commentaires existants et en les exécutant via un programme de thésaurus qui remplace les mots par des synonymes ou des parties associées du discours. Le résultat est une phrase qui a du sens, mais qui a des choix de mots qu'aucun locuteur natif ne ferait jamais:
Où puis-je obtenir ...
n'est clairement pas quelque chose qu'un locuteur natif écrirait, mais
Où d'autre pourrait-elle trouver ...
l'est et peut être transformé par un simple substitution de pronoms et de synonymes dans le texte du spam.
De cette façon, même si les forces anti-spam ont une énorme base de données de commentaires de spam connus, les spammeurs peuvent en générer une infinité de nouveaux qui sont vraisemblablement anglais.
J'ai longtemps soupçonné que c'était le cas, mais j'ai récemment obtenu des preuves. Je reçois maintenant occasionnellement du spam de commentaires contenant le script de substitution complet; ce sera quelque chose comme:
Je ne peux pas [croire / comprendre / comprendre] le [grand / supérieur / incroyable] [contenu / information / données] ...
Étant donné que les spammeurs n'étaient probablement pas anglophones au départ, ils n'ont pas remarqué qu'ils envoyaient le script plutôt que la sortie.
Si vous examinez un corpus suffisamment grand de spam, vous pouvez facilement déterminer quels algorithmes ils utilisent. Ce serait un défi intéressant en rétro-ingénierie d'écrire un programme qui déduit les algorithmes utilisés du corpus.
Je demande parce que quand je l'ai vu pour la première fois, j'ai pensé qu'ils étaient peut-être authentiques mais inarticulés .
Ils vous ont trompé une fois. Cela ne se reproduira probablement plus!
Le commentateur TildalWave souligne:
aucun des exemples de messages de spam OP postés n'approuve réellement des produits, ou ne fait la promotion d'aucune autre cause .
Et bien laissez-moi vous donner un exemple: voici un commentaire arrivé il y a quelques minutes sur mon blog:
nom d'utilisateur: cuisinart compact toaster review
URL de l'utilisateur: toasterovenpicks.com email de l'utilisateur: jeffryshuler@2-mail.com IP de l'utilisateur: 37.59.34.218 Contenu du commentaire: Un indice en particulier pour que les mariés sont essentiels à leur propre tout absolument nouveau, en fait un nom de famille brûlé qui a un mode, qui rend presque fille reconnaissante de reconnaître leur nom rafraîchissant, donc distinctement imprimé.
Le produit est promu dans les métadonnées de l'utilisateur, pas dans le contenu du commentaire. Le contenu n'est qu'une tentative de contourner le filtre anti-spam. (Je soupçonne que dans ce cas, le texte n'est pas une mutation d'un texte existant mais plutôt généré par un processus Markov sur un corpus de documents sur la planification de mariage.)
De toute évidence, les forces anti-spam sont actives un aussi, c'est pourquoi c'était dans mon filtre anti-spam. Mon filtre anti-spam (akismet) laisse passer en moyenne un spam pour 705 soumis. Encore une fois, c'est ce que recherchent les spammeurs; ils savent que 99,9% de leur travail ne sera jamais vu par personne. Ils essaient d'explorer au hasard l'espace des faux négatifs dans les filtres anti-spam, un espace qui devient en effet assez petit.