Суббота , 20 Апрель 2024
ДомойПубликацииПро цепи Маркова и спамеров

Про цепи Маркова и спамеров

В последнее время участились случаи «интеллектуального» спама в комментариях. Текст как бы по теме, но в целом — довольно бестолков (обычно).

Похоже, что спам-бот генерит комментарий либо на основе цепей Маркова из текста страницы, либо по ключу из названия ищет совпадение в базе и размножает имеющийся там шаблон. Раньше на основе этого дорвеи клепали, а теперь пытаются выдавать себя за рядовых пользователей.

Цепи Маркова

Размножка она размножка и есть. Не интересно. А вот что это за цепи Маркова?

К сожалению для спамеров, генерированный текст сразу палится, если глазками проверять. В 99% случаев точно. Для оставшегося процента достаточно глянуть на ник и/или перейти на сайт. Но, если новые спамокомментарии продолжают сыпаться, очевидно, что какой-то отклик имеется. Пусть один владелец блога из сотни, или даже тысячи, такое пропустит, этого достаточно, чтобы страдали все. Так что, господа вебмастеры, проверяйте, что одобряете.

Цепи Маркова
Пример недокомментариев

Прошу прощения, отвлёкся. Цепи Маркова на повестке.

Статья на Вики у неподготовленного втузом мозга может вызвать лютую мигрень. Но, по сути, нужно знать одно: цепь Маркова — последовательность случайных событий, независимых от прошлых.

В контексте программы получается примерно следующее:

  1. исходный текст разбивается на слова;
  2. для каждого сло́ва создаётся список соответствия, в котором перечисляются все слова́, которые по тексту следовали за ним;
  3. для генерации предложения выбирается произвольное слово, это начало предложения и наше текущее слово;
  4. выбирается случайное слово из списка соответствия, созданного на шаге 2. Является частью предложения;
  5. для текущего сло́ва выбирается случайное сло́во из его списка соответствия;
  6. если длина предложения недостаточна, переходим с шагу 4. Текущим словом становится слово из шага 5;
  7. если нужно продолжить генерацию текста, идём на шаг 3.

Поясню на конкретном примере.

Исходный текст:

Ах ты совушка-сова,
Ты большая голова!
Ты на дереве сидела,
Головою ты вертела —
Во траву свалилася,
В яму покатилася!

Создаём список соответствия для каждого встречающегося слова:

ах [ты]
ты [совушка-сова,; большая; на; вертела]
совушка-сова, [ты]
большая [голова!; ты]
на [дереве]
дереве [сидела,]
сидела, [головою]
головою [ты]
вертела [во]
во [траву]
траву [свалилася,]
свалилася, [в]
в [яму]
яму [покатилася]

Теперь генерируем предложение. Допустим, первое слово — на. Дальше, для этого слова выбираем случайное из списка соответствия. Список состоит из одного слова. Такое случается, особенно для маленьких текстов. По второму слову выбираем из его списка, и т. д. В итоге, получаем следующую последовательность: дереве сидела, головою ты. Для слова ты список соответствия состоит из 4 слов, и тут уже в силу вступает случай. В итоге, может получиться что-то такое:

На дереве сидела, головою ты большая, ты совушка-сова, ты вертела во траву свалилася, в яму покатилася.

Для генерации следующего предложения снова выбирается случайное слово и повторяется описанный алгоритм.

Вроде всё просто. Это, пожалуй, самая простая версия алгоритма, соответственно, и предложения получаются весьма корявые. Да можете сами потестировать интереса ради. А я на этом прощаюсь. Всем Добра!


Исходный текст

Рейтинг: 0

Автор публикации

2 070
не в сети 12 месяцев

x64 (aka andi)

Комментарии: 2893Публикации: 405Регистрация: 02-04-2009
Так себеНеплохоХорошоЗамечательноСупер! (Оценок пока нет)
Загрузка...

43 комментария

  1. Анди, ничего не поняла. Наверное, ещё не доросла. Но мне нужен совет. Пришёл комментарий от Андениум: » Слабые люди верят в удачу, сильные — в причину и следствие.Удачи в Ваших делах, статья понравилась очень, буду читать чаще ваш сайт», к статье «Пропали комментарии к статье. Что делать?». Вроде бы всё нормально. На сыйт заходила. Обычная продающая страница. А потом увидела такой же текст от того же Андениума у других блогеров в комментариях. Вот теперь думаю, а не спам ли это? Гляньте, если вам не очень сложно. Спасибо!

    Рейтинг: 1
  2. Аndi, спасибо за информацию. Пока такого у себя не наблюдала, но на будущее — буду теперь знать. Явный спам обычно удаляю вручную. А тот спам, что Akismet отсеивает и он в корзине болтается тоже удалять надо?

    Рейтинг: 1
    • Людмила, здравствуйте!
      Акисметом пользовался менее месяца. Удалил. Была проблема: периодически в спам летели комментарии от реальных пользователей. Пусть уж лучше больше времени потрачу на одобрение, чем кого-то обижу. Правда, всегда остаётся вероятность случайного удаления. Люди ошибаются, это неизбежно.
      В Вашем случае удалённые плагином комментарии тоже просматривал бы. Мало ли что. Вдруг сообщение от рекламодателя там болтается smile
      Сам остановился на следующем: собираю сотню-другую «плохих» комментариев, группирую по IP и блокирую самых наглых. Но тут нужно проверять, что за сеть, если забанить адрес мобильного МТС, к примеру, какой-то пользователь не сможет зайти на сайт. Корзину время от времени тоже очищаю.

      Рейтинг: 0
  3. Здравствуйте, Анди. Вот сердцем чувствую, что статья полезная, но придется еще раз прочитать. smile
    С «интеллектуальным спамом» уже не раз сталкивался у себя. Спамят, порой, очень даже в тему. Но, на цепи Маркова (если, я правильно понимаю их суть) вроде как не похоже.

    Рейтинг: 1
    • Юрий, и снова приветствую! (:
      В основном сыпятся тексты, разбавленные ссылками/тегами/бб-кодами. Такие даже внутренней настройкой WP отсекаются.
      А иногда бывает текст по теме, в качестве имени — ключ, и ссылка на гс.

      По «цепям» — не знаю, понадобятся ли Вам эти знания smile По идее, ПС к такому должны относиться гораздо лояльнее, в противовес синонимайзу.
      Основная суть: получается текст, слова в котором связаны как в нормальное статье. Сохраняется последовательность основных слов (пары слов).

      Рейтинг: 0
      • Анди, я вот про что:
        «Её уже видели будущей Олимпийской чемпионкой , однако случилась беда, спортсменка попала в больницу. Личная жизнь Галины Кулаковой . Кулакова училась в Ижевском педагогическом училище, которое окончила в 1962-ом году.»
        Это комментарий к моей статье про Галину Кулакову.
        Все по теме… Без ссылок… Но, это чисто фрагмент текста с другого ресурса.
        Вот и получается что, либо все сделано ручками (ввел ключ-открыл первый попавшийся сайт-скопировал и вставил), либо все-таки программа (шаблон)

        Рейтинг: 1
        • Юрий, всё может быть. Как вариант, запрос в поисковик и случайный абзац с первого сайта. А может и ручками, но эта штука всё равно спам. Интеллектуальный пусть, но всё-таки.
          Вообще, странная штука для спама, не слышал, чтобы по запросам к поисковым системам что-то делалось, это же лишняя нагрузка. Одно дело антигейт, а тут… странно, странно.

          Рейтинг: 0
          • Хотел сказать о том же. Несколько месяцев подряд ко мне подобный спам (по теме статьи и вполне человеческий) приходил. Пришел к выводу, что кто-то сделал крутой шаблон для Хрумера или самописный софт, позволяющий спамить тематически, вытаскивая релевантные фразы для комментов из других ресурсов.

            Рейтинг: 1
            • Константин, и довольно интеллектуально получается. Спалить можно по странному нику, ссылке на явный продажник. Или пробить текст комментария через антиплагиаторы.
              Кстати, вспомнилось: у меня же на техт.ру завалялось 610к символов для проверок по апи. Думаю, чего бы с этим сделать ;)

              Рейтинг: 0
          • Да, я понял, что это разновидность интеллектуального спама. Просто с таким никогда не сталкивался.
            А, кстати, насчет комментариев. Анди, никаких призов за 1000 коммент не предусмотрено? smile

            Рейтинг: 1
  4. Встречала нечто подобное у себя в комментах, следуя интуиции сразу их удаляла. Теперь знаю, откуда ветер, спасибо.

    Рейтинг: 1
  5. Интересно так все написал, я все поняла. Да еще и кнопочка волшебная внизу добавлена. Однако я спам чищу вручную, а в последнее время решила для себя вопрос просто — добавила список злостных спамеров в черный список по айпи и все. Они пишут, но сразу оказываются в корзине. Ее всегда чищу. Хорошо про цепи Макарова — классно!

    Рейтинг: 1
  6. Не, стала более внимательней и не тороплюсь, могу 2-3 раза проверить, то ли сделала, то ли правильно добавила. Я недавно тут базу себе почистила — скажем, беды не натворила, но плагин важный снесла. А он мне норм мобильную версию делал.

    Рейтинг: 1
  7. Умненький Андрюша нас всему научит!!!!! smile

    Рейтинг: 1
  8. Андрей, ничего себе! Это называется до чего дошел прогресс! Но видно все-таки, что не человеком создан текст, хотя и очень хорошо завуалировано.

    Рейтинг: 1
    • Татьяна, это, по сути, один из простейших способов воссоздания псевдочеловеческого текста. Проще синонимайзеры и, частный случай, глаголизаторы. Но про них достаточно давно не слышу, похоже, поприжали поисковики эту фишку.

      Рейтинг: 0
  9. Анди, привет! Все-таки Акисмет — это вещь. Я долго не хотел его ставить, пока в одно утро не обнаружил на блоге 1000 спам-комментариев. Вот где развлекуха была…

    Чтобы не удалить хороший комментарий, который Акисмет засунул по ошибке в спам — я всегда в рукопашную проверяю спам. После установки Акисмета больше ста комментариев за сутки — не появляется. Поэтому пробежаться глазками по странице из 20 комментов мне не очень сложно, так и делаю.

    С оботами бороться устал. Они постоянно меняют свои ай-пишники. Даже ставил плагин «черная дыра». Этот плагин банил тех ботов, которые robots.txt не читают. Но в конце-концов, я отключил и его. Глупый Яша считает этих ботов нормальными посетителями.

    В последнее время поток спама на блог резко снизился. Думается, что технический спам низкого качества просто перестал приносить желаемый эффект. В общем, на сегодняшний день, на сутки я получаю не больше десятка спамных бото-комментов. Раньше эта цифра была на порядок больше…

    В общем, статья получилась на высоте. Четко изложенный алгоритм и даже реализованный для примера, чтобы скептики могли потыркаться и убедиться, что цепи Маркова таки работают.

    Некоторые популярные блоггеры решили задачу со спам-комментариями просто. Они запретили любые ссылки в комментариях. При высокой посещаемости уже можно себе такое позволить…

    Рейтинг: 1
    • Денис, у меня сильнее всего китайцы чудили. Пришлось 2 диапазона забанить даже.
      Если без капчи оставить, комменты сотнями сыпятся. И судя по потому, что меньше не становится, это выгодно.
      Денис, не совсем понял из твоих слов, в чём суть установки Акисмета? Вроде бы не особо важно, где глазками смотреть, в спаме или в ожидающих. Во втором случае, правда, нужно 2 клика: отметить всё и удалить. Или у тебя комментарии сразу появляются? В этом случае да, плагин нужен.
      Общение с аудиторией можно наладить при помощи плагинов социальных сетей. Или сразу в соц сетях.
      С другой стороны, такие люди, как Тиньков и Лебедев, могут себе позволить отключить комментарии, да хоть платный доступ ввести. Их читать в любом случае будут.
      Сейчас подумываю, не вернуть ли капчу? Рекапчу шикарно сделали, для подтверждения 1 клик нужен. Но при ошибках заставят картинки отмечать. Пока думаю.

      Рейтинг: 0
    • Кстати, Денис, поздравляю!
      Твой комментарий юбилейно-призовой. Жду номер WMR или ЯД в приват/на почту.
      Пруф

      2500 комментарий

      Рейтинг: 0
  10. Андрей, доброго того, что за окном.
    Они меня достали!!! Эти китайские спамеры. Спасу нет.
    Однако, вот в чем вопрос. Спамы с иероглифами сыпятся только на одну статью про Стрельцова. Больше никуда.
    И кстати, непонятно почему, именно эту статью невзлюбил Яндекс. В индексе есть, а в поиске нет. Пишут, что есть алгоритм,который определяет релевантная ли статья или нет. Но,я думаю, что тут что-то другое.
    Не сталкивался с подобным?

    Рейтинг: 2
    • Юрий, приветствую! smile
      Китайцев по диапазону IP забанил. Один фиг пользы от них никакой. Альтернативные варианты — поставить капчу или плагин акисмет (Денис говорит реально помогает).
      Если какая-то статья не хочет лезть в индекс, можно попробовать внутренними ссылочками с других статей подтолкнуть. Ну и в панели Яндекс.Вебмастер добавить адрес страницы для бота: зайти в панель, клик на сайте, Индексирование → Проверка URL. Ввести в текстовое поле адрес страницы и нажать Проверить.
      Иногда может случиться, что случайно была закрыта страница от индексации. В этом случае нужно открыть)

      Рейтинг: 1
      • «Китайцев по диапазону IP забанил.»
        А вот с забаниванием я еще не знаком.

        Каптчу не хочу. А Аксимет что вообще не пропускает или просто в Корзину отправляет?

        Больше всего меня передергивает, когда на почте вижу очередное письмо с просьбой проверить комментарий к этой статье …

        Рейтинг: 2
        • Акисмет все подозрительное складывает в папку «Спам» в админке блога. На почту при этом ничего не посылает. Спам удаляется постранично, нажатием одной кнопки. По сколько штук писем выводить на одной странице — есть настройка. Я обычно по 20 ставлю, чтобы не грохнуть случайно залетевшие в спам письма.
          Плагин имеет платную версию, там ползунок к нулю при установке нужно загнать, чтобы бесплатно установиться.
          В интернете полно роликов на тему как установить Акисмет бесплатно.

          Рейтинг: 1
        • В самом простом варианте, добавить несколько строк в .htaccess

          order allow,deny
          deny from 127.0.1.1
          deny from 127.0.0.
          allow from all

          Первая строка говорит, что сначала выполняются разрешающие правила, затем — запрещающие.
          Разрешено у нас всё (последняя строка).
          Запрещено — конкретный IP 127.0.1.1 (строка 2) и диапазон от 127.0.0.0 до 127.0.0.255 (строка 3, там после точки ничего не указано, правило применяется по совпадению) (:

          На уровне веб-сервера блокировать выгоднее получается, до пыха дело не доходит и получается быстрее.

          Самое главное, перед добавлением нужно сохранить копию файла. Чтобы на случай, если что-то пойдёт не так (обычно пятисотая ошибка выскакивает в таком случае) всё быстренько вернуть.

          Рейтинг: 0
  11. Ой, все. В поиске появилась сорри. Остается вопрос почему статью полюбили спамеры

    Рейтинг: 2

Оставить комментарий

Политика конфиденциальности

Наш сайт использует файлы cookies, чтобы улучшить работу и повысить эффективность сайта. Продолжая работу с сайтом, вы соглашаетесь с использованием нами cookies и политикой конфиденциальности.

Принять