І знову спам. Погляд відсутності 0% та 100%. Antitop v0.3.
А 13 місяців тому...
- 1 рік 13 тижнів тому переглянуто 2864 раз +сьогодні 4 + 0 коментарів
- 1 рік 14 тижнів тому переглянуто 3134 раз +сьогодні 5 + 5 коментарів
- 1 рік 15 тижнів тому переглянуто 3440 раз +сьогодні 4 + 2 коментарів
Давненько на сторінках цього блогу не згадувався спам в тексті статтей.

Стаття lilumi про те, що в нього відсутній спам - надихнула і "завела".
Як відомо - для того, щоб навчитись їздити на лижах - просто необхідно навчитись правильному падінню з них.
Аналогічно і із спамом. Для того, щоб розуміти і вміти зменшити його кількість - просто необхідно вміти і знати алгоритми цього самого спаму.
Відповідно до цього ствердження я спробую незнайомими мені інструментами проаналізувати принцип роботи "розумного" спаму з можливостями дуже серйозної автоматизації і обов'язковим втручанням людини-спамера.
Звісна справа - все це буду проводити на теренах дружнього блогу, який зазіхнув на святе - виклав метод, який дійсно є ефективним в більшості випадків проти тупих автоматичних методів.
Щодо алгоритму прихованої форми
Інструментарій, який був вибраний саме для цього випадку:
- Naviscope - програма візуалізатор-проксі, що відображає HTTP request(GET + POST) запити(Замість цього можна використати будь-який HTTP сніфер)
- Firefox + перший з додатків, що вміє відсилати GET і головне POST запити(в автоматичному режимі не використовується)
- Opera(опціонально)
- Notepad++(опціонально)
Тут я не буду розглядати принцип створення саме інструменту, що буде стягувати html сторінку і грабити ідентифікатор форми для особливо складних випадків, коли він змінюється в часі.
В даному випадку алгоритми - аналогічні до взлому капчі, що для прикладу стоїть на цьому блозі.
Головне знати, що вони є.
Для створення автоматичної програми спаму потрібно в першу чергу записати повністю всі кроки додавання саме коментаря. Вручну!
Отже.. Заходимо на блог і додаємо коментар. Поки що вручну...

Після додавання - аналізуєм інформацію з naviscope і створюєм автоматичний процес додавання.

Витягуємо з вікна naviscope HTTP заголовок, який відправляється броузером відповідному серверу.

Вставляємо в вікно hackbar відповідно посилання до php скрипта, refererr, і наш, потрібний POST data, в якому вводиться ідентифікатор форми, текст коментаря, додаткова інформація про користувача і ідентифікатор коментаря, на який робиться відповідь.
Тиснемо Execute.
Змінюємо один символ в тексті коментаря і повторно тиснемо Execute. Далі - справа часу і реалізації автоматизму.
Замість hackbar можливе використання php, javascript post(НМД - найбільш небезпечний метод), c++ тощо.
Щодо захисту і як його обходиться...
Захист прихованою формою тут не спрацьовує, бо ідентифікатор вичисляється людиною, а в майбутньому по відповідній ділянці коду(Алгоритм антивіруса 8) ) і автоматичним грабером 8)
Зміна ідентифікатора форми через певний період часу - спрацює в якості захисту, але якщо в грабера буде аналізатор по ділянці HTML коду - фіг Ви його обдурите, він просто буде хватати новий ідентифікатор форми щоразу при зміні Вами вручну або автоматично.
Щодо Акісмету.
Обійти його досить нескладно, якщо посилання вставляти в текст коментаря, а не в поле "сайт"
Крім того, якщо посилання вставляти серед тексту коментаря, скопійованого з частини статті або іншого коментаря цього ж самого блогу - такий коментар навіть автором може бути сприйнятий як норма..
Найгірше в акісметі те, що його база наповнюється користувачами, частина з яких є просто спамерами.
Щодо bayesian алгоритму.
На мою думку - це один з найефективніших алгоритмім самонавчання, частково використаний і в Акісметі.
Тобто - спам-неспам.
Бачите спам - тиснете спам і по статистиці слів в спам коментарях вичисляється імовірність даного коментаря щодо того чи цек спам чи не спам... Бачите випадкове спрацьовування фільтру - тиснете неспам і алгоритм вчиться в зворотньому напрямку.
Обходиться спамерами тупим постінгом найрейтинговіших слів в текст коментаря, і при цьому "пильність" фільтра знижується.
Для того, щоб не зруйнувати власну базу статистики даного алгоритму - на коментарях, які я називаю "антиантиспам", тобто таких, що направлені на зниження ефективності антиспам фільтрів, забороняється тиснути "спам-неспам", замість того обрубувати можливі майбутні спам-атаки по ключовим словам, які дійсно завжди будуть спамом(ручне навчання алгоритму bayesian), а також баном доменних імен, на які спамер постить в тексті коментаря.
І замість висновка
Неможливо позбутись спаму взагалі...
Можна знизити відсоток потрапляння спаму на Ваш сайт , але позбутись його - нереально.
Створення унікальних форм додавання - знизить кількість "тупих" ботів.
Зміна форм додавання коментарів в часі - аналогічно.
Премодерація - додасть Вам роботи, але позбавить швидкості додавання коментарів для анонімних користувачів.
Алгоритм Баєра(bayesian) в комплексі з премодерацією найбільш схожих на спам коментарів - найефективніший метод, особливо, якщо Ваша форма коментування - унікальна, але він також обходиться, якщо спамер додасть в текст коментаря частину тексту вашої статті(або опублікованого коментаря) тупим копіюванням.
Trackback URL для цього допису
- Додати коментар
- 3554 перегляди



Сайт
Мій висновок такий : тупих
Мій висновок такий : тупих спамботів, ми позбулись, а створювати наворочені спамскрипти не рентабельно.
А взагалі-то мені сподобалось, як ти пробивав мій антиспам-захист, за півроку в мене не було жодного спам-повідомлення, а тут за день цілих тридцять, при чому я цього спамера знаю в лице =)
Якби ж
Як модератор на SEO-форумі особисто знаю людину, що створює наворочені спам-боти і цілком успішно(!) продає їх за чималі суми (100долл+) - тож, цілком рентабельно... до речі, він не спамер - просто PHP-кодер, заробляє собі на життя...
Тож зупинятись поки ранувато... Як вже відмітили, Akismet - далеко не панацея, а наворочені спам-боти існують і використовуються... продовжуємо посилювати захист?:)
Pingback
[...] UPD: Андрій Поданенко вирішив поставити під сумнів цей метод і ми позмагались у винахідливості. Про що його стаття у відповідь: «І знову спам. Погляд відсутності 0% та 100%. Antitop v0.3.» [...]
Блогоспам.
Я роздумував над цією темою. Прийшов до висновку, що якісну базу блогів краще вручну спамити. Ну, це вже і не спам. Ось тут мої роздуми по цьому питанню http://life-seo.ru/2009/06/spam-blogov-rabota-ili-razvlechenie/
А процес автоматизації це цікаво...
Стаття корисна.