Клерк.Ру

Спамеры и боты должны быть уничтожены. И причем тут «1С» и «КонсультантПлюс»

735

Мы поставили задачу понять аудиторию «Клерка», узнать ее размер, проблемы и решаемые на нашем сайте задачи. И мы с технической командой уже несколько недель занимаемся исключительно профилями пользователей.

Уже сейчас можно легко поменять аватар, никнейм (никнейм раньше было менять запрещено), заполнить список бухгалтерских и неоченьбухгалтерских программ. Добавить должность и место работы. Найти коллег.

Об идее рейтинга бухгалтерских программ расскажу чуть подробнее. Он появился случайно и стал очень интересным для нас. Сейчас мы видим, что побеждают продукты компаний 1С и "КонсультантПлюс". Удивительно, правда? Рейтинг находится вот здесь: Программы для бухгалтера.

Чтобы отдать свой голос за программы на которых вы работаете и повлиять на рейтинг, пожалуйста, укажите ее в профиле в поле "В своей работе я пользуюсь продуктами". Нам это очень важно.

Но я отвлекся, я хотел рассказать про нашу борьбу с "мертвыми душами": спамы, боты и так далее.

Читайте в первой части первых четыре подхода:

Мы решили навести порядок в огромной базе пользователей «Клерка» (1 130 779 пользователя) и удалить из нее ботов, спамеров и прочую нечисть, которую мы накопили за 18 лет.

Далее: Что делать, если вас нет. Громадная чистка базы пользователей «Клерка»

Пятый подход

Итак, следующий шаг - "популярные" даты массовых регистраций. Таких дат слишком много чтобы обрабатывать все. Изучив древнейшую истории клерка годы пришли к выводу, что норма регистраций - 100 человек в день. Но замечены огромные всплески регистраций. Например, 29 декабря 2007 года зарегистрировалось 21812 человек.

А вот за эти 22 даты - 38772 регистраций

  • '2007-12-29',
  •  '2007-11-02',
  •  '2015-01-12',
  •  '2015-01-15',
  •  '2015-01-10',
  •  '2015-01-13',
  •  '2011-02-17',
  •  '2015-01-14',
  •  '2015-01-11',
  •  '2011-11-21',
  •  '2011-06-01',
  •  '2011-04-25',
  •  '2011-02-16',
  •  '2011-02-24',
  •  '2011-02-15',
  •  '2011-04-29',
  •  '2011-02-18',
  •  '2011-03-17',
  •  '2011-11-17',
  •  '2011-03-02',
  •  '2011-02-25',
  •  '2011-02-19'

Отфильтруем тех:

  1.  У кого логин без русских букв
  2.  Не указал имя
  3.  Не указал дату рождения
  4.  Не заходил на новый сайт
  5.  Не писал постов на форуме

Получается 29334 регистраций на удаление. Итог осталось Осталось 778952

Подход шестой

Теперь попробуем проверить гипотезу, что часто регистрируются с одних и тех же IP-адресов. Отобрали IP-адреса, с которых регистрировалось более 500 человек - даже в крупной компании вряд ли будет столько сотрудников, сидящих на «Клерке». 

Таких адресов оказалось 111:

"195.162.69.94", "188.123.248.62", "46.4.107.79", "219.145.198.90", "199.15.234.112", "46.4.114.8", "199.15.234.213", "212.117.178.169", "46.161.9.20", "46.4.114.171", "46.151.52.42", "176.9.9.9", "46.161.9.22", "46.151.52.62", "31.184.238.14", "46.151.52.40", "46.151.52.63", "46.151.52.64", "195.154.178.231", "46.151.52.38", "46.151.52.67", "80.250.48.21", "46.151.52.32", "46.151.52.35", "46.151.52.43", "46.151.52.86", "46.151.52.66", "46.161.9.23", "195.154.211.140", "199.15.234.88", "46.151.52.41", "109.230.213.103", "46.151.53.17", "46.151.52.30", "213.238.175.3", "78.110.175.17", "193.227.241.51", "46.151.52.61", "46.151.52.37", "46.151.52.33", "146.185.223.4", "109.230.222.53", "198.2.211.129", "142.54.185.186", "80.252.154.233", "62.122.182.106", "208.66.74.106", "195.154.189.164", "195.154.179.125", "91.224.160.4", "58.22.123.148", "195.154.191.209", "195.154.179.190", "195.154.179.187", "46.151.53.14", "195.154.179.233", "192.168.1.5", "216.99.152.122", "46.151.52.238", "78.110.175.16", "46.4.79.85", "46.151.52.68", "176.9.8.53", "46.151.53.28", "46.151.53.24", "46.151.55.13", "46.151.53.21", "198.2.211.35", "46.151.52.46", "46.151.52.36", "46.151.53.34", "46.151.52.178", "91.210.106.111", "95.65.45.111", "195.154.178.236", "198.2.211.99", "46.151.53.12", "46.151.53.40", "199.15.234.211", "31.192.104.151", "46.151.53.15", "46.17.96.14", "199.15.233.174", "195.154.191.213", "109.230.213.102", "195.154.187.223", "46.4.84.242", "46.151.53.6", "79.133.98.33", "194.8.75.163", "213.5.64.179", "46.151.52.70", "216.99.146.218", "46.151.53.43", "58.22.123.98", "195.154.191.177", "46.38.62.159", "46.151.53.16", "109.230.213.191", "195.154.188.31", "195.162.68.16", "195.154.188.41", "195.154.188.224", "31.193.196.98", "89.28.114.111", "109.230.217.209", "109.230.220.238", "199.15.234.66", "195.162.68.82", "109.248.32.240", "46.151.53.11",

Всего с этих 111 адресов зарегистрировалось 122763 человек. Попробуем применить типовые фильтры (такие же как были при удалении по дате регистрации). Получается 121106 на удаление. 

Хорошее попадание:

Таких пользователей 120578 на удаление - хороший результат

Подход седьмой

Вторая порция спамерских или подозрительных почтовых доменов:

tlen.pl - шутники.

Всего таких пользователей 66098. Внимательно и аккуратно все просмотрели. Удалили.

Еще несколько подобных поисков и в итоге осталось 603591 пользователей.

Решили, что пора на время остановиться.

Для интереса, публикуем список распределения доменов у электропочт пользователей:

  1. mail.ru 178421
  2. gmail.com  117803
  3. yandex.ru  58473
  4. rambler.ru 22676
  5. bk.ru  11985
  6. list.ru 9760
  7. inbox.ru  7797
  8. ya.ru  4113
  9. outlook.com 3814
  10. hotmail.com 3203

Всем спасибо за внимание!

Пожалуйста, заполните в профиле в поле "В своей работе я пользуюсь продуктами".

Борис Мальцев, руководитель «Клерка»