В последнее время участились случаи «интеллектуального» спама в комментариях. Текст как бы по теме, но в целом — довольно бестолков (обычно).
Похоже, что спам-бот генерит комментарий либо на основе цепей Маркова из текста страницы, либо по ключу из названия ищет совпадение в базе и размножает имеющийся там шаблон. Раньше на основе этого дорвеи клепали, а теперь пытаются выдавать себя за рядовых пользователей.
Размножка она размножка и есть. Не интересно. А вот что это за цепи Маркова?
К сожалению для спамеров, генерированный текст сразу палится, если глазками проверять. В 99% случаев точно. Для оставшегося процента достаточно глянуть на ник и/или перейти на сайт. Но, если новые спамокомментарии продолжают сыпаться, очевидно, что какой-то отклик имеется. Пусть один владелец блога из сотни, или даже тысячи, такое пропустит, этого достаточно, чтобы страдали все. Так что, господа вебмастеры, проверяйте, что одобряете.
Прошу прощения, отвлёкся. Цепи Маркова на повестке.
Статья на Вики у неподготовленного втузом мозга может вызвать лютую мигрень. Но, по сути, нужно знать одно: цепь Маркова — последовательность случайных событий, независимых от прошлых.
В контексте программы получается примерно следующее:
- исходный текст разбивается на слова;
- для каждого сло́ва создаётся список соответствия, в котором перечисляются все слова́, которые по тексту следовали за ним;
- для генерации предложения выбирается произвольное слово, это начало предложения и наше текущее слово;
- выбирается случайное слово из списка соответствия, созданного на шаге 2. Является частью предложения;
- для текущего сло́ва выбирается случайное сло́во из его списка соответствия;
- если длина предложения недостаточна, переходим с шагу 4. Текущим словом становится слово из шага 5;
- если нужно продолжить генерацию текста, идём на шаг 3.
Поясню на конкретном примере.
Исходный текст:
Ах ты совушка-сова,
Ты большая голова!
Ты на дереве сидела,
Головою ты вертела —
Во траву свалилася,
В яму покатилася!
Создаём список соответствия для каждого встречающегося слова:
ах [ты] ты [совушка-сова,; большая; на; вертела] совушка-сова, [ты] большая [голова!; ты] на [дереве] дереве [сидела,] сидела, [головою] головою [ты] вертела [во] во [траву] траву [свалилася,] свалилася, [в] в [яму] яму [покатилася]
Теперь генерируем предложение. Допустим, первое слово — на. Дальше, для этого слова выбираем случайное из списка соответствия. Список состоит из одного слова. Такое случается, особенно для маленьких текстов. По второму слову выбираем из его списка, и т. д. В итоге, получаем следующую последовательность: дереве сидела, головою ты. Для слова ты список соответствия состоит из 4 слов, и тут уже в силу вступает случай. В итоге, может получиться что-то такое:
На дереве сидела, головою ты большая, ты совушка-сова, ты вертела во траву свалилася, в яму покатилася.
Для генерации следующего предложения снова выбирается случайное слово и повторяется описанный алгоритм.
Вроде всё просто. Это, пожалуй, самая простая версия алгоритма, соответственно, и предложения получаются весьма корявые. Да можете сами потестировать интереса ради. А я на этом прощаюсь. Всем Добра!
Исходный текст
днём интернета
шоколадкой для работы мозга
коробочкой ароматного чая для бодрости
продлением хостинга на +1 месяц
Анди, ничего не поняла. Наверное, ещё не доросла. Но мне нужен совет. Пришёл комментарий от Андениум: » Слабые люди верят в удачу, сильные — в причину и следствие.Удачи в Ваших делах, статья понравилась очень, буду читать чаще ваш сайт», к статье «Пропали комментарии к статье. Что делать?». Вроде бы всё нормально. На сыйт заходила. Обычная продающая страница. А потом увидела такой же текст от того же Андениума у других блогеров в комментариях. Вот теперь думаю, а не спам ли это? Гляньте, если вам не очень сложно. Спасибо!
Наталья, извините, что не смог донести мысль. Со мной такое случается
По Вашему вопросу. Если на нескольких сайтах один комментарий, 100% спам. Сайт у товарища под АГС, кстати, поэтому лучше url потереть, а ещё лучше вообще удалить комментарий. Не очень хорошо ссылаться на сайты под фильтром, даже если noindex/nofollow указаны.
Спасибо, Анди! Я и другим блогерам, у кого помню его комменты, напишу,чтобы убрали.
Наталья, решительно не за что
У меня тоже такая фраза где-то висит. Правда, были сомнения, и я стерла юрл (если сомневаюсь, то стираю обычно). Как оказывается, не зря. Теперь найду и выброшу вовсе. Спасибо, Наталья и Андрей.
Светлана, да не за что (:
Аndi, спасибо за информацию. Пока такого у себя не наблюдала, но на будущее — буду теперь знать. Явный спам обычно удаляю вручную. А тот спам, что Akismet отсеивает и он в корзине болтается тоже удалять надо?
Людмила, здравствуйте!
Акисметом пользовался менее месяца. Удалил. Была проблема: периодически в спам летели комментарии от реальных пользователей. Пусть уж лучше больше времени потрачу на одобрение, чем кого-то обижу. Правда, всегда остаётся вероятность случайного удаления. Люди ошибаются, это неизбежно.
В Вашем случае удалённые плагином комментарии тоже просматривал бы. Мало ли что. Вдруг сообщение от рекламодателя там болтается
Сам остановился на следующем: собираю сотню-другую «плохих» комментариев, группирую по IP и блокирую самых наглых. Но тут нужно проверять, что за сеть, если забанить адрес мобильного МТС, к примеру, какой-то пользователь не сможет зайти на сайт. Корзину время от времени тоже очищаю.
Здравствуйте, Анди. Вот сердцем чувствую, что статья полезная, но придется еще раз прочитать.
С «интеллектуальным спамом» уже не раз сталкивался у себя. Спамят, порой, очень даже в тему. Но, на цепи Маркова (если, я правильно понимаю их суть) вроде как не похоже.
Юрий, и снова приветствую! (:
В основном сыпятся тексты, разбавленные ссылками/тегами/бб-кодами. Такие даже внутренней настройкой WP отсекаются.
А иногда бывает текст по теме, в качестве имени — ключ, и ссылка на гс.
По «цепям» — не знаю, понадобятся ли Вам эти знания По идее, ПС к такому должны относиться гораздо лояльнее, в противовес синонимайзу.
Основная суть: получается текст, слова в котором связаны как в нормальное статье. Сохраняется последовательность основных слов (пары слов).
Анди, я вот про что:
«Её уже видели будущей Олимпийской чемпионкой , однако случилась беда, спортсменка попала в больницу. Личная жизнь Галины Кулаковой . Кулакова училась в Ижевском педагогическом училище, которое окончила в 1962-ом году.»
Это комментарий к моей статье про Галину Кулакову.
Все по теме… Без ссылок… Но, это чисто фрагмент текста с другого ресурса.
Вот и получается что, либо все сделано ручками (ввел ключ-открыл первый попавшийся сайт-скопировал и вставил), либо все-таки программа (шаблон)
Юрий, всё может быть. Как вариант, запрос в поисковик и случайный абзац с первого сайта. А может и ручками, но эта штука всё равно спам. Интеллектуальный пусть, но всё-таки.
Вообще, странная штука для спама, не слышал, чтобы по запросам к поисковым системам что-то делалось, это же лишняя нагрузка. Одно дело антигейт, а тут… странно, странно.
Хотел сказать о том же. Несколько месяцев подряд ко мне подобный спам (по теме статьи и вполне человеческий) приходил. Пришел к выводу, что кто-то сделал крутой шаблон для Хрумера или самописный софт, позволяющий спамить тематически, вытаскивая релевантные фразы для комментов из других ресурсов.
Константин, и довольно интеллектуально получается. Спалить можно по странному нику, ссылке на явный продажник. Или пробить текст комментария через антиплагиаторы.
Кстати, вспомнилось: у меня же на техт.ру завалялось 610к символов для проверок по апи. Думаю, чего бы с этим сделать ;)
Да, я понял, что это разновидность интеллектуального спама. Просто с таким никогда не сталкивался.
А, кстати, насчет комментариев. Анди, никаких призов за 1000 коммент не предусмотрено?
Юрий, за каждый 500 комментарий в общем для блога.
Каждый 150 комментарий от незарегистрированного пользователя.
Подробности
Встречала нечто подобное у себя в комментах, следуя интуиции сразу их удаляла. Теперь знаю, откуда ветер, спасибо.
Ариника, здравствуйте!
Для блога лучше закрыть комментарии, нежели автоматом пропускать всё. Идеальный вариант — ручное одобрение. Всё верно делаете!
Интересно так все написал, я все поняла. Да еще и кнопочка волшебная внизу добавлена. Однако я спам чищу вручную, а в последнее время решила для себя вопрос просто — добавила список злостных спамеров в черный список по айпи и все. Они пишут, но сразу оказываются в корзине. Ее всегда чищу. Хорошо про цепи Макарова — классно!
Елена, спасибо за поддержку и много хороших слов
ЗЫ: блокировка по IP решает. Главное, не залочить случайно «публичники» от большой тройки.
Ага, Андрей, я вот у себя пыталась по IP, кого там… саму себя блокирую, представляешь. Хотя мой IP вообще в другом диапазоне. Решила потому не лезть вообще туда, куда не понимаю.
Светлана, с этой точки зрения лучше и правда не экспериментировать. Ладно себя заблокировать, а если при этом и остальные на сайт попасть не смогут? Беда
Не, стала более внимательней и не тороплюсь, могу 2-3 раза проверить, то ли сделала, то ли правильно добавила. Я недавно тут базу себе почистила — скажем, беды не натворила, но плагин важный снесла. А он мне норм мобильную версию делал.
Елена, главное спокойствие. Всё можно восстановить
Умненький Андрюша нас всему научит!!!!!
Лена, да Вы стебасла)
Андрей, ничего себе! Это называется до чего дошел прогресс! Но видно все-таки, что не человеком создан текст, хотя и очень хорошо завуалировано.
Татьяна, это, по сути, один из простейших способов воссоздания псевдочеловеческого текста. Проще синонимайзеры и, частный случай, глаголизаторы. Но про них достаточно давно не слышу, похоже, поприжали поисковики эту фишку.
Анди, привет! Все-таки Акисмет — это вещь. Я долго не хотел его ставить, пока в одно утро не обнаружил на блоге 1000 спам-комментариев. Вот где развлекуха была…
Чтобы не удалить хороший комментарий, который Акисмет засунул по ошибке в спам — я всегда в рукопашную проверяю спам. После установки Акисмета больше ста комментариев за сутки — не появляется. Поэтому пробежаться глазками по странице из 20 комментов мне не очень сложно, так и делаю.
С оботами бороться устал. Они постоянно меняют свои ай-пишники. Даже ставил плагин «черная дыра». Этот плагин банил тех ботов, которые robots.txt не читают. Но в конце-концов, я отключил и его. Глупый Яша считает этих ботов нормальными посетителями.
В последнее время поток спама на блог резко снизился. Думается, что технический спам низкого качества просто перестал приносить желаемый эффект. В общем, на сегодняшний день, на сутки я получаю не больше десятка спамных бото-комментов. Раньше эта цифра была на порядок больше…
В общем, статья получилась на высоте. Четко изложенный алгоритм и даже реализованный для примера, чтобы скептики могли потыркаться и убедиться, что цепи Маркова таки работают.
Некоторые популярные блоггеры решили задачу со спам-комментариями просто. Они запретили любые ссылки в комментариях. При высокой посещаемости уже можно себе такое позволить…
Денис, у меня сильнее всего китайцы чудили. Пришлось 2 диапазона забанить даже.
Если без капчи оставить, комменты сотнями сыпятся. И судя по потому, что меньше не становится, это выгодно.
Денис, не совсем понял из твоих слов, в чём суть установки Акисмета? Вроде бы не особо важно, где глазками смотреть, в спаме или в ожидающих. Во втором случае, правда, нужно 2 клика: отметить всё и удалить. Или у тебя комментарии сразу появляются? В этом случае да, плагин нужен.
Общение с аудиторией можно наладить при помощи плагинов социальных сетей. Или сразу в соц сетях.
С другой стороны, такие люди, как Тиньков и Лебедев, могут себе позволить отключить комментарии, да хоть платный доступ ввести. Их читать в любом случае будут.
Сейчас подумываю, не вернуть ли капчу? Рекапчу шикарно сделали, для подтверждения 1 клик нужен. Но при ошибках заставят картинки отмечать. Пока думаю.
Кстати, Денис, поздравляю!
Твой комментарий юбилейно-призовой. Жду номер WMR или ЯД в приват/на почту.
Пруф
На картинке — комментарий 29-ый! У тебя вроде все призы круглые были? Как это мне свезло в призеры попасть?
Пардон! Очки одел и все увидел Действительно 2500 — ый комментарий на твоем блоге.
Это мой второй приз в Интернет-жизни. Первый получил за участие в конкурсе на логотип форума ДСН от cefp. Занял почетное второе место. Было всего два участника
Ну, номер ЯДа отправил в приватный чат
Денис, всё верно
Андрей, доброго того, что за окном.
Они меня достали!!! Эти китайские спамеры. Спасу нет.
Однако, вот в чем вопрос. Спамы с иероглифами сыпятся только на одну статью про Стрельцова. Больше никуда.
И кстати, непонятно почему, именно эту статью невзлюбил Яндекс. В индексе есть, а в поиске нет. Пишут, что есть алгоритм,который определяет релевантная ли статья или нет. Но,я думаю, что тут что-то другое.
Не сталкивался с подобным?
Юрий, приветствую!
Китайцев по диапазону IP забанил. Один фиг пользы от них никакой. Альтернативные варианты — поставить капчу или плагин акисмет (Денис говорит реально помогает).
Если какая-то статья не хочет лезть в индекс, можно попробовать внутренними ссылочками с других статей подтолкнуть. Ну и в панели Яндекс.Вебмастер добавить адрес страницы для бота: зайти в панель, клик на сайте, Индексирование → Проверка URL. Ввести в текстовое поле адрес страницы и нажать Проверить.
Иногда может случиться, что случайно была закрыта страница от индексации. В этом случае нужно открыть)
«Китайцев по диапазону IP забанил.»
А вот с забаниванием я еще не знаком.
Каптчу не хочу. А Аксимет что вообще не пропускает или просто в Корзину отправляет?
Больше всего меня передергивает, когда на почте вижу очередное письмо с просьбой проверить комментарий к этой статье …
Акисмет все подозрительное складывает в папку «Спам» в админке блога. На почту при этом ничего не посылает. Спам удаляется постранично, нажатием одной кнопки. По сколько штук писем выводить на одной странице — есть настройка. Я обычно по 20 ставлю, чтобы не грохнуть случайно залетевшие в спам письма.
Плагин имеет платную версию, там ползунок к нулю при установке нужно загнать, чтобы бесплатно установиться.
В интернете полно роликов на тему как установить Акисмет бесплатно.
В самом простом варианте, добавить несколько строк в .htaccess
Первая строка говорит, что сначала выполняются разрешающие правила, затем — запрещающие.
Разрешено у нас всё (последняя строка).
Запрещено — конкретный IP 127.0.1.1 (строка 2) и диапазон от 127.0.0.0 до 127.0.0.255 (строка 3, там после точки ничего не указано, правило применяется по совпадению) (:
На уровне веб-сервера блокировать выгоднее получается, до пыха дело не доходит и получается быстрее.
Самое главное, перед добавлением нужно сохранить копию файла. Чтобы на случай, если что-то пойдёт не так (обычно пятисотая ошибка выскакивает в таком случае) всё быстренько вернуть.
Ой, все. В поиске появилась сорри. Остается вопрос почему статью полюбили спамеры
Достаточно написать о проблеме, как она решается сама ;)
Про спамеров — им пофиг. Вполне возможно нашли первую попавшую форму на сайте, и давай на неё сыпать. Разве ж китайских спамеров поймёшь?
А, действительно интересно, что пишут. Надо племяннику скрин сбросить. Пусть переведет. Он в Китае работает. Пусть «наедет» на спамеров, чтобы меня и друзей оставили в покое
Юрий, от это правильно! Лично наведается и покажет, чьё кунг фу круче)