Pourquoi le spam de blog est-il toujours si mal écrit?

Eric Lippert

2013-06-14 01:31:36 UTC

view on stackexchange narkive permalink

Les spammeurs génèrent automatiquement de nouveaux commentaires en prenant les commentaires existants et en les exécutant via un programme de thésaurus qui remplace les mots par des synonymes ou des parties associées du discours. Le résultat est une phrase qui a du sens, mais qui a des choix de mots qu'aucun locuteur natif ne ferait jamais:

Où puis-je obtenir ...

n'est clairement pas quelque chose qu'un locuteur natif écrirait, mais

Où d'autre pourrait-elle trouver ...

l'est et peut être transformé par un simple substitution de pronoms et de synonymes dans le texte du spam.

De cette façon, même si les forces anti-spam ont une énorme base de données de commentaires de spam connus, les spammeurs peuvent en générer une infinité de nouveaux qui sont vraisemblablement anglais.

J'ai longtemps soupçonné que c'était le cas, mais j'ai récemment obtenu des preuves. Je reçois maintenant occasionnellement du spam de commentaires contenant le script de substitution complet; ce sera quelque chose comme:

Je ne peux pas [croire / comprendre / comprendre] le [grand / supérieur / incroyable] [contenu / information / données] ...

Étant donné que les spammeurs n'étaient probablement pas anglophones au départ, ils n'ont pas remarqué qu'ils envoyaient le script plutôt que la sortie.

Si vous examinez un corpus suffisamment grand de spam, vous pouvez facilement déterminer quels algorithmes ils utilisent. Ce serait un défi intéressant en rétro-ingénierie d'écrire un programme qui déduit les algorithmes utilisés du corpus.

Je demande parce que quand je l'ai vu pour la première fois, j'ai pensé qu'ils étaient peut-être authentiques mais inarticulés .

Ils vous ont trompé une fois. Cela ne se reproduira probablement plus!

Le commentateur TildalWave souligne:

aucun des exemples de messages de spam OP postés n'approuve réellement des produits, ou ne fait la promotion d'aucune autre cause .

Et bien laissez-moi vous donner un exemple: voici un commentaire arrivé il y a quelques minutes sur mon blog:

  nom d'utilisateur: cuisinart compact toaster review
URL de l'utilisateur: toasterovenpicks.com email de l'utilisateur: jeffryshuler@2-mail.com IP de l'utilisateur: 37.59.34.218 Contenu du commentaire: Un indice en particulier pour que les mariés sont essentiels à leur propre tout absolument nouveau, en fait un nom de famille brûlé qui a un mode, qui rend presque fille reconnaissante de reconnaître leur nom rafraîchissant, donc distinctement imprimé.

Le produit est promu dans les métadonnées de l'utilisateur, pas dans le contenu du commentaire. Le contenu n'est qu'une tentative de contourner le filtre anti-spam. (Je soupçonne que dans ce cas, le texte n'est pas une mutation d'un texte existant mais plutôt généré par un processus Markov sur un corpus de documents sur la planification de mariage.)

De toute évidence, les forces anti-spam sont actives un aussi, c'est pourquoi c'était dans mon filtre anti-spam. Mon filtre anti-spam (akismet) laisse passer en moyenne un spam pour 705 soumis. Encore une fois, c'est ce que recherchent les spammeurs; ils savent que 99,9% de leur travail ne sera jamais vu par personne. Ils essaient d'explorer au hasard l'espace des faux négatifs dans les filtres anti-spam, un espace qui devient en effet assez petit.

Eh bien, ils ne m'ont pas dupé une seule fois, mais je lui ai certainement accordé beaucoup trop de considération.

@TildalWave: Les phrases deviennent non grammaticales lorsque les substitutions locales enfreignent les règles contextuelles. Remplacer «est» par «suis», «sont», «étaient», «était», «été» ou «être» va presque toujours faire une phrase non grammaticale ou bizarre. Et même les règles "normales" pour les inflexions et les accords en anglais sont assez bizarres et faciles à se tromper.

@TildalWave: En ce qui concerne ce qui est si difficile, ce n'est pas si difficile. Rappelez-vous, les spammeurs cherchent à livrer quoi, un message sur mille? Dix mille? S'ils ont un moyen peu coûteux de tromper un filtre une fois sur mille, c'est là un retour sur investissement.

@TidalWave, c'est une vieille histoire: Link spam. La charge utile se trouve dans une URL intégrée dans le nom d'utilisateur du spammeur, ou quelque chose comme ça.

@TildalWave: Premièrement, vous semblez prendre cela très au sérieux. C'est une question StackExchange. Allégez-vous, et si vous n'aimez pas cette réponse, écrivez-en une meilleure. Ce que vous «accepterez» ne me préoccupe pas particulièrement; mes réponses ne sont pas accompagnées d'un accord de niveau de service. Deuxièmement, bien sûr, l'OP omet des détails. Les OP omettent toujours les détails. Depuis que l'OP a un blog WordPress, tout comme moi, j'ai vu environ 100000 spams comme le sien. Troisièmement, de nombreux sites Web suppriment les métadonnées de l'utilisateur. Quatrièmement, ne considérez pas les spammeurs comme * intelligents *. Ils lancent un milliard de spams par jour et espèrent un peu de bâton.

@TidalWave (et Eric) J'ai certainement * fait * obtenir le type de lien vers le produit. Bien qu'ils ne soient pas vraiment ce qui m'intéressait. Parmi ceux qui sont mal écrits, ceux avec une charge utile constituent une grande minorité. Habituellement, il s'agit d'un nom d'hôte impossible à résoudre et d'une adresse e-mail générée aléatoirement. Dans l'ensemble, la plupart des spams sont de type liens promotionnels, y compris les deux que j'ai publiés. Mais beaucoup n'ont pas du tout de lien.

Très bonne réponse. Merci pour les informations de votre blog. Fait pour une lecture intéressante. Je suis content de ne pas avoir à m'inquiéter de ce que mes sites soient touchés si fort

Les noms d'hôte insolubles sont ceux qui étaient en place et qui fournissaient du contenu non sollicité à un moment donné mais qui ont maintenant diminué (certains d'entre eux montent puis redescendent très rapidement). En ce qui concerne les messages sans lien, il est assez trivial de supprimer les liens d'un message, certaines personnes ne bloquent pas les commentaires de spam mais suppriment simplement les liens, cela se traduit par de nombreux commentaires semi-authentiques qui n'ont aucune raison évidente être du spam, ils le sont toujours.

J'ai soudainement la plus étrange envie d'acheter un grille-pain ...

@TildalWave, le spam de lien peut ne pas contenir de texte même à distance lié à leurs produits. Certains essaient simplement d'établir une association entre un site populaire et leurs fermes de liens. Ils comprennent que cette association peut aider à améliorer le classement de leur page Google. Il existe tout un «web artificiel» de sites qui ne servent aucune personne réelle, mais les robots des moteurs de recherche ne peuvent pas faire la différence. Essentiellement, ils paient la réputation des blogs qu'ils spamment.

Vous avez mentionné que vous recevez parfois du spam de commentaires contenant l'intégralité du script de substitution. Voici [un exemple complet d'un tel script] (https://gist.github.com/shanselman/5422230).

Recevoir l'intégralité du script de substitution est tout simplement trop drôle. +1!

AbsoluteƵERØ

2013-06-14 05:24:15 UTC

view on stackexchange narkive permalink

Le langage peut avoir un peu à voir avec un sig comme TidalWave parlait.

Un peu de spamdexing inoffensif.

J'ai eu quelques-uns des premiers exemples sur mon blog. Bien que cela semble inoffensif, ils sont en fait spamdexing (un peu de " black hat seo") en essayant d'associer leur compte utilisateur (et les liens de sites Web par extension) les mots-clés du blog (comme le disait Alex, c'est du marketing). Lorsque vous cliquez sur le lien, cela compte comme un succès positif du blog. Si un blog a suffisamment de résultats positifs pour une recherche clé, leur lien obtiendra une augmentation de +1 des moteurs de recherche en ce qui concerne la relativité des mots-clés. La plupart des moteurs de recherche ont compris cela et essaient de l'empêcher avec une correspondance de pertinence dans leurs formules.

L'inconvénient est si un utilisateur vient sur votre site pour quelque chose hors sujet à cause de ce spam et laisse ( rebonds) les moteurs de recherche pénaliseront globalement votre classement (faute de substance) ainsi que votre classement pour la page au contenu hors sujet. Bien qu'il n'y ait pas grand-chose à voir avec la sécurité informatique dans le spamdexing (à moins qu'ils n'utilisent un site infecté comme leur propre URL), cela a un impact négatif sur les performances [sociales] du site dans l'ensemble si suffisamment de spammeurs font cela et détruisent votre site dans le classements.

En ce qui concerne le deuxième exemple, il contient un hook pour une opération à deux messages de spam (couramment trouvé dans les forums). Le premier poster créera un compte et postera une question qui ressemble à une préoccupation légitime.

... Où puis-je obtenir ce genre d'informations écrites de manière aussi idéale? ...

Peu de temps après (environ 20 minutes, voire quelques jours), une autre affiche (du même pays généralement, sinon de la même plage d'adresses IP) créera un nouveau compte et publiera la réponse, qui contient le lien en rapport avec la question de l'affiche originale. Étant donné que la plupart des modérateurs du forum ne supprimeront pas ce qui ressemble à une vraie discussion, leur spam trompe à nouveau quelqu'un ... c'est toujours du spamdexing. Un exemple de style marketing mieux conçu pourrait être:

J'ai trouvé une excellente ressource pour [mots clés ici] à l'adresse [ http://www.example.com/ . Vous devriez y jeter un œil, car ils contiennent beaucoup d'informations liées à [plus de mots-clés]. Cela devrait vous aider.

Certains des autres trucs qu'ils feront est d'avoir une image de signature qui est un GIF transparent de seulement 1 pixel par 1 pixel et enveloppé dans un <a> balise. Cela crée un lien vers un autre site Web partout où l'affiche a tapé son contenu charabia. Ce n'est pas parce que vous ne pouvez pas le voir qu'il n'est pas là.

Les menaces de spam pas si inoffensives ont un impact sur la sécurité du serveur

Certaines des pires les exemples de spam contiendront en fait un lien vers un site infecté, ou ils installeront un keylogger javascript. (J'ai vu le piratage SVG utilisé dans les lignes de signature pour injecter un script malveillant.) Le keylogger est celui que vous devrez surveiller car il peut capturer le nom d'utilisateur et le mot de passe du blog / administrateur du site ou un autre utilisateur avec des privilèges élevés lorsqu'ils essaient de se connecter (ou tout utilisateur créant un compte) sur la même page pour supprimer le spam. Dans le meilleur des cas, si l'utilisateur dispose d'un accès suffisant pour voir d'autres utilisateurs, l'attaquant téléchargera la liste des adresses e-mail des utilisateurs et enverra des e-mails de spam à une liste (marketing) ciblée par le marché.

De nouveaux utilisateurs innocents peuvent se voir voler leurs identifiants, et puisque la plupart des gens utilisent les mêmes mots de passe et la même adresse e-mail partout, leurs comptes ailleurs peuvent désormais être compromis. (Facebook, LinkedIn, etc.)

Dans le pire des cas, parce que la plupart des développeurs Web des systèmes CMS ne s'attendent pas à ce que quelqu'un avec "skillz" entre dans le backend via l'une de ces méthodes (fiable), ils ne faites pas des choses comme vérifier tous les formulaires d'administration pour les injections XSS ou MySQL (j'ai surpris quelques-uns de mes développeurs en train de couper les coins ronds dans cette méthode). De l'injection XSS à SQL, cela dépend alors de la sécurité de la box, des limitations sur les comptes utilisateurs (ne pas exécuter Apache en tant que root) et de l'accès en lecture / écriture. Puisqu'ils seraient dans le CMS, vous pouvez supposer que l'utilisateur peut probablement écrire tout ce qu'il veut dans la boîte. Supprimez la base de données, infectez le site avec une porte dérobée ... c'est maintenant un problème de sécurité informatique.

Dan Gayle

2013-06-14 08:57:09 UTC

view on stackexchange narkive permalink

La société pour laquelle je travaillais avait l'habitude de faire du "spinning", qui, comme l'une des réponses mentionnées ci-dessus, effectue une recherche dans le thésaurus par programme et remplace le texte. Cependant, nous le ferions en plusieurs couches complexes.

Nous avons en fait employé de vrais écrivains américains pour écrire la copie originale.
Ces auteurs originaux marqueraient les leurs. document en utilisant une syntaxe spéciale que nous avons créée, en marquant des mots, des groupes de mots, des phrases et des phrases entières, y compris les synonymes qu'ils jugeaient appropriés pour chaque cas. Cela signifiait des synonymes de phrases entières qui pouvaient être échangées sans changer de sens. Ils le feraient dans un logiciel d'édition de texte que nous avons créé qui leur fournirait des suggestions de saisie semi-automatique.
Chaque fois qu'un rédacteur marquait son document, nous stockions tous ses synonymes et phrases dans un dictionnaire et utilisez-les pour ajouter des suggestions au rédacteur pour son prochain devoir.
Appuyez sur GO sur la machine et faites tourner des centaines / milliers de variantes.
Divisez des blocs de variantes à notre équipe de référencement aux Philippines dont le seul travail était de trouver des blogs, des forums et d'autres sites Web à haut PR trop stupides pour nous bloquer.

Fait intéressant, nous n'avons jamais automatisé la partie de publication proprement dite, car c'était la chose la plus facile à repérer pour les machines. Un vrai humain publiait cette poubelle.

Ah, le bon vieux temps de ruiner Internet pour tout le monde.

Cool. Eh bien, pas du tout cool. Mais merci de l'avoir partagé.

Pourquoi avez-vous fait ça? faire de l'argent ? comment gagner de l'argent en envoyant du spam? La Chine vous paie pour ruiner Internet pour tout le monde?

@RitwikG: La façon dont vous gagnez de l'argent est la suivante: les propriétaires de CrappyToasterOvens.com vous appellent et vous disent ** Nous voulons être le hit n ° 1 de Google lorsque quelqu'un recherche "cadeau de mariage au four grille-pain". Faites en sorte que cela se produise. ** C'est donc votre travail. Comment allez-vous le faire? Google recherche * les pages populaires qui renvoient à d'autres sites Web avec des mots-clés *, donc vous pensez bien, je vais mettre un million de commentaires sur un million de blogs avec les mots "cadeau de mariage au four grille-pain" et un lien vers le site, et * certains * d'entre eux seront des blogs populaires.

Il me semble que si vous faisiez cela pour suffisamment de documents, vous pourriez commencer à faire un traitement prédictif pour déterminer les candidats probables pour la syntaxe. Essentiellement, la base de connaissances conserverait non seulement des collections des différents éléments synonymes, mais aussi la manière dont certains éléments seraient souvent organisés (en d'autres termes, la construction d'une sorte d'arbre d'analyse prédictive grâce à l'apprentissage automatique). Utiliser cela pour la génération ne donnerait probablement pas des résultats optimaux, mais je pense que cela pourrait être utile pour suggérer des balises pour les documents écrits.

@EricLippert +1 pour référence de four grille-pain;)

Alberto Santini

2013-06-14 04:00:21 UTC

view on stackexchange narkive permalink

Je ne sais pas si, dans votre cas, le texte que vous avez signalé était l'intégralité du commentaire (quel serait alors son objectif, soit en tant que véritable commentaire, soit en tant que spam / arnaque?).

Au cas où ce n'était pas le cas - et lorsque le spam doit servir de prélude à une interaction future - alors l'écrire dans un mauvais anglais pourrait être fait exprès , comme un "contrôle" pour une victime qui est assez stupide pas pour reconnaître immédiatement l'arnaque et donc y investir du temps.

Source: Pourquoi les escrocs nigérians disent-ils qu'ils viennent du Nigéria? par Cormac Herley, Microsoft Research.

+1 pour avoir mentionné le papier Herley. Toutes les explications ci-dessus supposent d'énormes quantités de spammeurs qui ne peuvent souvent pas toutes être vraies.

ahmed

2013-06-14 07:00:44 UTC

view on stackexchange narkive permalink

Peut-être que cela ne répondra pas à la question du PO, mais ces spams ne sont pas destinés à inciter quiconque à acheter quoi que ce soit.

Le but est de créer le nombre maximum de commentaires avec des liens vers des pages ou des sites particuliers que les spammeurs souhaitent améliorer leur PageRank. C'est sur ces sites que se déroulera le véritable travail de séduction des acheteurs potentiels (ou de piratage d'ordinateurs de victimes potentielles, ou les deux).

C'est pourquoi presque tous les spams ont au moins un lien. Et quand ce n'est pas le cas, c'est généralement un commentaire spécialement conçu ("Un article brillant", "Merci d'avoir partagé ça" ...) où le but est de faire approuver le commentaire et d'accorder au bot un accès direct sans passer la file d'attente de modération. Parce que dans certains CMS et forums, lorsqu'un utilisateur atteint un nombre minimum de messages approuvés, il sera «marqué» comme étant de confiance et ne devra pas être approuvé à chaque fois.

Le spam n'est donc pas destiné aux humains mais pour les machines (moteurs de recherche) et les spammeurs doivent faire le plus possible pour influencer les moteurs de recherche. Ainsi, ils ne perdent pas de temps sur le contenu, car aucun humain ne le lira, et se concentrent sur des mécanismes qui rendent beaucoup de messages plus rapides et plus simples.

En un mot, vous n'êtes pas la cible , vous n'êtes qu'un dommage collatéral.

AJ Henderson

2013-06-13 23:09:06 UTC

view on stackexchange narkive permalink

C'est probablement une combinaison des deux. S'ils utilisent un langage qui n'a pas de sens grammatical, il est plus probable que quelqu'un l'interprète à tort comme de véritables commentaires sur un message, car ils essaieront de remplir les espaces d'une manière qui ait du sens. En fin de compte, la plupart de ce type de spam essaie de diffuser des liens sur le Web pour essayer d'avoir un impact sur les classements de recherche.

Pour que les liens restent actifs, ils ont besoin que leurs commentaires paraissent authentiques pour les rendre plus difficiles à retirez facilement des commentaires authentiques. Ils font des réponses génériques qui «pourraient» vraisemblablement être valides dans l'espoir qu'elles resteront actives.

Dans d'autres situations, c'est le résultat d'essayer d'insérer des mots-clés dans le commentaire de manière à augmenter l'association du lien avec ces mots-clés.

AllInOne

2013-06-14 02:37:20 UTC

view on stackexchange narkive permalink

En plus des bonnes réponses publiées ci-dessus, votre question est fortement biaisée par l'échantillonnage.

Vous ne reconnaissez que les articles de blog de spam mal conçus comme du spam de blog. Vous ne reconnaissez jamais le spam de blog vraiment bien conçu comme spam de blog. Par conséquent, il semble que tous les spams de blog soient mal conçus.

AmIRight?

Si je passe le temps à écrire sur des blogs des articles réfléchis, grammaticalement corrects, pertinents, utiles, etc. auxquels j'ajoute des liens uniquement pour des raisons cachées - est-ce du spam de blog?

@emory Non, c'est du marketing. :-)

@Xander alors c'est un problème de définition et non de biais d'échantillonnage. Si mes articles de blog égoïstes sont mal rédigés, ils sont du spam de blog; s'ils sont bien conçus, ils font du marketing. Le spam de blog est mal conçu par définition.

En fait non. Si j'avais un blog vraiment réussi, vous pourriez peut-être le dire, mais tel quel, il est assez facile de distinguer le spam du non-spam (est-ce que je les connais, non, c'est probablement du spam).

Votre réponse me rappelle cette bande dessinée (profane) xkcd: http://xkcd.com/810/

@emory Oui, je suis d'accord.

iHaveacomputer

2013-06-14 05:18:44 UTC

view on stackexchange narkive permalink

Les blogspammeurs utilisent souvent des fileurs de contenu. Ils remplacent les mots par des synonymes, ce qui devrait fonctionner en théorie, mais en réalité, cela donne l'impression que le commentaire a été écrit par un enfant de 4 ans; ou quelqu'un qui n'a pas l'anglais comme première langue.

La plupart des filateurs de contenu partagent une syntaxe commune (exemple tiré de la réponse d'Eric Lippert):

  Je ne peux pas [croire / comprendre / comprendre] le [excellent / supérieur / incroyable ] [contenu / informations / données] ...

Cela signifie que le spinner de contenu choisira un mot aléatoire de chaque crochet pour construire la phrase. De cette façon, vous pouvez obtenir une grande variété de commentaires similaires, sans avoir de doublons exacts, ce qui rend un peu plus difficile pour les plugins anti-spam d'identifier un contenu similaire s'ils utilisent une somme de contrôle comme md5 pour comparer les commentaires avec le spam précédent.

servarevitas3

2013-06-14 20:37:20 UTC

view on stackexchange narkive permalink

Ils peuvent utiliser des modèles comme celui-ci: https://gist.github.com/shanselman/5422230, qui a été récemment publié accidentellement sur le site de Scott Hanselman: http: // www.hanselman.com/blog/ExposedABlogCommentSpammersSourceTemplate.aspx

Comme d'autres l'ont mentionné, tout ce qu'il faut faire est d'écrire un script pour extraire un mot au hasard des listes entre crochets.

MarmiK

2013-06-14 08:52:54 UTC

view on stackexchange narkive permalink

On peut dire simplement que vous devez être conscient du SEO (Search Engine Optimization). Il dispose de 2 types de techniques majeures 1) Black Hat et 2) White Hat

White hat fait la vraie manière ou travail authentique.

mais là où vient le chapeau noir, votre problème commence, ce qu'ils font, c'est qu'ils ont créé un certain nombre de nom d'utilisateur, de mot de passe ou une liste de blogs ouverts ... ils continuent à publier du contenu sur la base de leur exigence (mots-clés) afin de leur donner des clics entrants sur leur site ..

Comme le dit la première réponse, ils utilisent un logiciel intelligent qui comprend partiellement la langue, et crée un paragraphe sur la base de mots-clés donnés.

Donc, cela aura du sens, mais cela n'aura pas de sens du tout ... :)

J'espère que cela aura du sens dans le contexte de votre question ..