SEO и безопасность в интернете

Личный сайт Павла Медведева

2 месяца спустя — масштабные утечки персональных данных продолжаются?

2 месяца спустя — масштабные утечки персональных данных продолжаются?

UPDATE 3
Прошло примерно полтора месяца после масштабной утечки персональных данных на множестве сайтов. Ко мне часто обращаются с вопросом исправили ли ошибки сайты.

Забегая вперед, перед анализом ситуации, скажу что утечки продолжаются.

Петр Литвин недавно заявил об очередной порции утекших в сеть сканов документов. На этот раз отличился  сайт по выпуску карт для тахографов для дальнобойщиков.

На сайте bg26.ru тоже забыли про robots.txt

файл robots.txt составлен некорректно

Правда Петр утверждает что в  данной проблема не только robots.txt

Но в этот раз проблема не только в роботсе ) а в целом: 
1. Поиск по картинкам
2. Не закрытие картинок от индекса
3. Выкладка документов на ресайзерах и «личных» фотохостингах
4. Не закрытый поиск по похожим картинкам.

Еще один крупный портал допустил утечку всей базы со сканами

Я тоже обнаружил крупный портал в котором каждый может получить доступ к базе абсолютно всех из 10.000 с лишним исполнителей, скачать сканы их паспортов, получить их финансовые транзакции за оплату услуг на сайте, узнать точные координаты местоположения GPS(!). Так же можно получить данные заказчиков. Более того — в индексе поисковых систем доступ к админской части: можно без авторизации изменять настройки сайта, блокировать и удалять пользователей. Это просто феерично. Тех.поддержка сайта игнорирует сообщения, комментариев не дает.

Как развивалась ситуация с утечками, обращались ли владельцы сайтов за помощью?

Для начала расскажу что происходило в момент самого скандала с утечкой, какие действия предпринимали владельцы уязвимых сайтов. Потом проанализирую текущую ситуацию с персональными данными, которые могут по ошибке «утекать » в открытый доступ.

Во время утечки крупные компании довольно быстро узнали о проблеме: пользователи упоминали их в комментариях(что видит pr-служба), их атаковали с вопросами журналисты. Ни одна из компаний не обратилась ко мне за экспертным мнением как наиболее оперативно исправить последствия. Тем кому я писал — так же игнорировали мои сообщения. Задавали вопросы в личку только обычные люди, спрашивали советы как сохранить свои данные.

Большинство компаний по крайней мере старались исправить ошибки. Сбербанк, ВТБ сделали это очень быстро, «подчистили» выдачу что журналисты даже не смогли увидеть данные, что я фиксировал. В тоже время остальные компании не торопились изменениями на сайте или сделали их на самом простом уровне.

Любопытен пример: Наша компания Rush Agency подготовила коммерческое предложение по полному аудиту поисковой безопасности персональных данных. Как раз в этот момент пользователи в сети обнаружили утечку данных у очень крупной федеральной компании с сотнями филиалов по стране. Я подготовил персональные рекомендации для сайта чтобы — максимально быстро убрать всю персональную информацию из поисковиков — по моим рекомендациям весь процесс занял бы минуты — часы, после этого выдача была бы чистой. Естественно эти рекомендации были готовы передать немедленно и безвозмездно. Компания после этого в спокойной обстановке, оценив наш уровень экспертизы смогла бы сама решать заказывать у нас полный аудит поисковой безопасности или нет. В итоге наш отдел продаж многократно был «послан», не смотря на то что мы утверждали обо всей серьезности проблемы. 
В итоге примерно через неделю они внесли изменения в файл robots.txt и данные стали постепенно пропадать из поисковиков. Сегодня еще раз проверил — часть персональных данных так и  осталась в поисковиках из-за того что не учли все нюансы индексации поисковыми системами — страницы могут так висеть месяцами, годами, если не ускорить их переиндексацию/удаление.

Пример страницы, что можно найти в выдаче поисковых систем

С утечкой персональных данных из департамента транспорта на официальном сайте мэра Москвы тоже все прошло не идеально. На сайте dt-window.mos.ru разместили запрещающий файл robots.txt, скрыли персональных данные с доступных без авторизации страниц.
Сканы паспортов и других документов пользователей пропали, но сохраненные копии некоторых PDF-документов так и висят в кэше поисковиков.

Если бы перечисленные выше компании обратились к специалистам, то все страницы из выдачи были бы удалены буквально в течение минут — часов, а не висели бы месяцы в выдаче. Но как я уже говорил из сотен компаний на которых существуют утечки за советом не обратился никто. Вероятно решили проблему с помощью своих низкоквалифицированных подрядчиков которые и допустили утечку.

В  мелких интернет-магазинах, про которые я писал дела не сильно отличаются. Посмотрел один из них: Robots.txt скорректировали, но не проверили удаление всех страниц, поэтому часть еще доступна для просмотра

Почему все так сложно, ведь запрещающий файл robots.txt добавили?

Вообще, поисковые системы имеют довольно сложный механизм индексирования,  удаления из индекса документов. Добавление одного лишь файла robots.txt не всегда решает проблему. Нужно добавлять запрещающие мета теги, либо серверные заголовки, отправлять страницу на переиндексацию или удаление, использовать специализированные сервисы для ускорения переиндексации, переписываться с тех.поддержкой поисковиков. Усложняет ситуацию то что в разных поисковых системах этот механизм работает по разному, техническая документация не всегда совпадает с тем как работают поисковые роботы или может запаздывать за обновлением алгоритмов. 

Пример отчета в консоли Google — страницы индексируются несмотря на блокировку

Для SEO-оптимизатора важно знать все эти нюансы, так как массовое попадание различных технических, мусорных страниц, дублей, мешает продвижению сайта — негативно сказывается на его трафике и в итоге прибыли владельца и мы постоянно боремся за максимально быстрое удаление ненужных страниц на сайте.  Поэтому по таким вопросам лучше обращаться не к разработчикам, а к тем кто работает с поисковыми системами — SEO-оптимизаторам.

Безопасность банковской информации

После утечки персональных данных я провел анализ того как серьезно банковские и финансовые сайты подходят к безопасности своих сайтов.

Смотрите мое исследование, в результате которого выяснилось что 21% банковских сайтов вообще не содержит файл robots.txt:

В Сбербанке утверждают что нет никакой опасности в том что используется незащищенный протокол HTTP у главной страницы а так же части других страниц сайта, включая формы с вводом личной информации.   

Я не хакер, но вот простой пример как из-за описанной  проблемы ситуации со Сбера может украсть ваши деньги любой школьник: допустим, есть публичная WIFI-сеть (с таким же  успехом может быть  и домашняя, корпоративная). Зная пароль к сети, можно зайти в настройки роутера. Половина владельцев даже не меняет стандартный пароль. Перенастроить роутер, чтобы при обращении к сайту Сбербанка он подменял его на похожий с виду мошеннический сайт. А далее уже можно придумывать миллион сценариев, как путем ловкости и социальной инженерии выманивать деньги у пользователей, которые считают что находятся на сайте банка и общаются с его сотрудниками.  

Описанная выше ситуация возможна только при использовании незащищенного незашифрованного соединения. Заметная доля мировых сайтов (этот сайт тоже) работает по зашифрованному протоколу и защищена от таких проблем.  

В итоге все таки здравый смысл возобладал и через пару недель после выпуска статьи Сбербанк перевел главную на HTTPS и начал  постепенно переводить и остальные страницы.   Надеюсь так поступят и остальные банки, напишу отчет о проверке через полгода-год.

Как сейчас обстоят дела с утечками, стоит ли ожидать новых?

После того как скандал прогремел в СМИ — ситуация в целом по сайтам улучшилась, в поисковых системах теперь намного сложнее найти персональные данные. 

Эксперты считают что это не только заслуга владельцев сайтов, но и поисковые системы перенастроили свои алгоритмы на более сильную фильтрацию страниц, содержащих персональные и другие чувствительные данные. Существует так же мнение что июльские масштабные утечки произошли из-за бага в Яндексе, когда «сломалась» такая система фильтрации и незакрытые владельцами сайтов данные попали в поиск. (Напомню, что в Яндексе найти их было намного проще чем в остальных ПС).

В таком случае, если владельцы сайтов не позаботятся о защите персональных данных, в будущем мы можем ожидать новых утечек при каких-либо сбоях или перенастройках алгоритмов поисковых систем. Причем винить в этом поисковые системы было бы странно, потому что они индексируют то что  доступно роботам, что открыл владелец сайта.


Магазины на Webasyst — проблема продолжается уже 7 лет

Как все началось 7 лет с интернет-магазинов и секс-шопов на  движке Webasyst, так владельцы и не могут закрыть все дыры, обновить систему. Возможно используются устаревшие, взломанные версии движка.

Из недавних историй, показывающих халатность администраторов государственных сайтов можно назвать историю про то как пользователи нашли ссылки на логи работников налоговой, на сайте nalog.ru

Можно посмотреть какой пользователь какие сайты посещал за последний год, даже можно идентицифировать департамент, по названию группы пользователей. 

Fishki, Playboy и порносайты — это конечно забавно и не тянет на скандал. Но показатель халатности админов, не закрывших сайт. В будущем это может привести к более серьезным утечкам как сотрудников налоговой, так и граждан.

Google

Pavel

Обсуждение закрыто.