SEO и безопасность в интернете

Личный сайт Павла Медведева

Все записи автора Pavel

nopagenopage

тестовая страница

Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu, consequat vitae, eleifend ac, enim. Aliquam lorem ante, dapibus in, viverra quis, feugiat a, tellus. Phasellus viverra nulla ut metus varius laoreet. Quisque rutrum. Aenean imperdiet. Etiam ultricies nisi vel augue.
Curabitur ullamcorper ultricies nisi. Nam eget dui. Etiam rhoncus. Maecenas tempus, tellus eget condimentum rhoncus, sem quam semper libero, sit amet adipiscing sem neque sed ipsum. Nam quam nunc, blandit vel, luctus pulvinar, hendrerit id, lorem. Maecenas nec odio et ante tincidunt tempus. Donec vitae sapien ut libero venenatis faucibus.  Nullam quis ante. Etiam sit amet orci eget eros faucibus tincidunt.
Duis leo. Sed fringilla mauris sit amet nibh. Donec sodales sagittis magna. Sed consequat, leo eget bibendum sodales, augue velit cursus nunc, quis gravida magna mi a libero. Fusce vulputate eleifend sapien. Vestibulum purus quam, scelerisque ut, mollis sed, nonummy id, metus. Nullam accumsan lorem in dui. Cras ultricies mi eu turpis hendrerit fringilla. Vestibulum ante. 

2 месяца спустя — масштабные утечки персональных данных продолжаются?

UPDATE 3
Прошло примерно полтора месяца после масштабной утечки персональных данных на множестве сайтов. Ко мне часто обращаются с вопросом исправили ли ошибки сайты.

Забегая вперед, перед анализом ситуации, скажу что утечки продолжаются.

Петр Литвин недавно заявил об очередной порции утекших в сеть сканов документов. На этот раз отличился  сайт по выпуску карт для тахографов для дальнобойщиков.

На сайте bg26.ru тоже забыли про robots.txt

файл robots.txt составлен некорректно

Правда Петр утверждает что в  данной проблема не только robots.txt

Но в этот раз проблема не только в роботсе ) а в целом: 
1. Поиск по картинкам
2. Не закрытие картинок от индекса
3. Выкладка документов на ресайзерах и «личных» фотохостингах
4. Не закрытый поиск по похожим картинкам.

Еще один крупный портал допустил утечку всей базы со сканами

Я тоже обнаружил крупный портал в котором каждый может получить доступ к базе абсолютно всех из 10.000 с лишним исполнителей, скачать сканы их паспортов, получить их финансовые транзакции за оплату услуг на сайте, узнать точные координаты местоположения GPS(!). Так же можно получить данные заказчиков. Более того — в индексе поисковых систем доступ к админской части: можно без авторизации изменять настройки сайта, блокировать и удалять пользователей. Это просто феерично. Тех.поддержка сайта игнорирует сообщения, комментариев не дает.

Как развивалась ситуация с утечками, обращались ли владельцы сайтов за помощью?

Для начала расскажу что происходило в момент самого скандала с утечкой, какие действия предпринимали владельцы уязвимых сайтов. Потом проанализирую текущую ситуацию с персональными данными, которые могут по ошибке «утекать » в открытый доступ.

Во время утечки крупные компании довольно быстро узнали о проблеме: пользователи упоминали их в комментариях(что видит pr-служба), их атаковали с вопросами журналисты. Ни одна из компаний не обратилась ко мне за экспертным мнением как наиболее оперативно исправить последствия. Тем кому я писал — так же игнорировали мои сообщения. Задавали вопросы в личку только обычные люди, спрашивали советы как сохранить свои данные.

Большинство компаний по крайней мере старались исправить ошибки. Сбербанк, ВТБ сделали это очень быстро, «подчистили» выдачу что журналисты даже не смогли увидеть данные, что я фиксировал. В тоже время остальные компании не торопились изменениями на сайте или сделали их на самом простом уровне.

Любопытен пример: Наша компания Rush Agency подготовила коммерческое предложение по полному аудиту поисковой безопасности персональных данных. Как раз в этот момент пользователи в сети обнаружили утечку данных у очень крупной федеральной компании с сотнями филиалов по стране. Я подготовил персональные рекомендации для сайта чтобы — максимально быстро убрать всю персональную информацию из поисковиков — по моим рекомендациям весь процесс занял бы минуты — часы, после этого выдача была бы чистой. Естественно эти рекомендации были готовы передать немедленно и безвозмездно. Компания после этого в спокойной обстановке, оценив наш уровень экспертизы смогла бы сама решать заказывать у нас полный аудит поисковой безопасности или нет. В итоге наш отдел продаж многократно был «послан», не смотря на то что мы утверждали обо всей серьезности проблемы. 
В итоге примерно через неделю они внесли изменения в файл robots.txt и данные стали постепенно пропадать из поисковиков. Сегодня еще раз проверил — часть персональных данных так и  осталась в поисковиках из-за того что не учли все нюансы индексации поисковыми системами — страницы могут так висеть месяцами, годами, если не ускорить их переиндексацию/удаление.

Пример страницы, что можно найти в выдаче поисковых систем

С утечкой персональных данных из департамента транспорта на официальном сайте мэра Москвы тоже все прошло не идеально. На сайте dt-window.mos.ru разместили запрещающий файл robots.txt, скрыли персональных данные с доступных без авторизации страниц.
Сканы паспортов и других документов пользователей пропали, но сохраненные копии некоторых PDF-документов так и висят в кэше поисковиков.

Если бы перечисленные выше компании обратились к специалистам, то все страницы из выдачи были бы удалены буквально в течение минут — часов, а не висели бы месяцы в выдаче. Но как я уже говорил из сотен компаний на которых существуют утечки за советом не обратился никто. Вероятно решили проблему с помощью своих низкоквалифицированных подрядчиков которые и допустили утечку.

В  мелких интернет-магазинах, про которые я писал дела не сильно отличаются. Посмотрел один из них: Robots.txt скорректировали, но не проверили удаление всех страниц, поэтому часть еще доступна для просмотра

Почему все так сложно, ведь запрещающий файл robots.txt добавили?

Вообще, поисковые системы имеют довольно сложный механизм индексирования,  удаления из индекса документов. Добавление одного лишь файла robots.txt не всегда решает проблему. Нужно добавлять запрещающие мета теги, либо серверные заголовки, отправлять страницу на переиндексацию или удаление, использовать специализированные сервисы для ускорения переиндексации, переписываться с тех.поддержкой поисковиков. Усложняет ситуацию то что в разных поисковых системах этот механизм работает по разному, техническая документация не всегда совпадает с тем как работают поисковые роботы или может запаздывать за обновлением алгоритмов. 

Пример отчета в консоли Google — страницы индексируются несмотря на блокировку

Для SEO-оптимизатора важно знать все эти нюансы, так как массовое попадание различных технических, мусорных страниц, дублей, мешает продвижению сайта — негативно сказывается на его трафике и в итоге прибыли владельца и мы постоянно боремся за максимально быстрое удаление ненужных страниц на сайте.  Поэтому по таким вопросам лучше обращаться не к разработчикам, а к тем кто работает с поисковыми системами — SEO-оптимизаторам.

Безопасность банковской информации

После утечки персональных данных я провел анализ того как серьезно банковские и финансовые сайты подходят к безопасности своих сайтов.

Смотрите мое исследование, в результате которого выяснилось что 21% банковских сайтов вообще не содержит файл robots.txt:

В Сбербанке утверждают что нет никакой опасности в том что используется незащищенный протокол HTTP у главной страницы а так же части других страниц сайта, включая формы с вводом личной информации.   

Я не хакер, но вот простой пример как из-за описанной  проблемы ситуации со Сбера может украсть ваши деньги любой школьник: допустим, есть публичная WIFI-сеть (с таким же  успехом может быть  и домашняя, корпоративная). Зная пароль к сети, можно зайти в настройки роутера. Половина владельцев даже не меняет стандартный пароль. Перенастроить роутер, чтобы при обращении к сайту Сбербанка он подменял его на похожий с виду мошеннический сайт. А далее уже можно придумывать миллион сценариев, как путем ловкости и социальной инженерии выманивать деньги у пользователей, которые считают что находятся на сайте банка и общаются с его сотрудниками.  

Описанная выше ситуация возможна только при использовании незащищенного незашифрованного соединения. Заметная доля мировых сайтов (этот сайт тоже) работает по зашифрованному протоколу и защищена от таких проблем.  

В итоге все таки здравый смысл возобладал и через пару недель после выпуска статьи Сбербанк перевел главную на HTTPS и начал  постепенно переводить и остальные страницы.   Надеюсь так поступят и остальные банки, напишу отчет о проверке через полгода-год.

Как сейчас обстоят дела с утечками, стоит ли ожидать новых?

После того как скандал прогремел в СМИ — ситуация в целом по сайтам улучшилась, в поисковых системах теперь намного сложнее найти персональные данные. 

Эксперты считают что это не только заслуга владельцев сайтов, но и поисковые системы перенастроили свои алгоритмы на более сильную фильтрацию страниц, содержащих персональные и другие чувствительные данные. Существует так же мнение что июльские масштабные утечки произошли из-за бага в Яндексе, когда «сломалась» такая система фильтрации и незакрытые владельцами сайтов данные попали в поиск. (Напомню, что в Яндексе найти их было намного проще чем в остальных ПС).

В таком случае, если владельцы сайтов не позаботятся о защите персональных данных, в будущем мы можем ожидать новых утечек при каких-либо сбоях или перенастройках алгоритмов поисковых систем. Причем винить в этом поисковые системы было бы странно, потому что они индексируют то что  доступно роботам, что открыл владелец сайта.


Магазины на Webasyst — проблема продолжается уже 7 лет

Как все началось 7 лет с интернет-магазинов и секс-шопов на  движке Webasyst, так владельцы и не могут закрыть все дыры, обновить систему. Возможно используются устаревшие, взломанные версии движка.

Из недавних историй, показывающих халатность администраторов государственных сайтов можно назвать историю про то как пользователи нашли ссылки на логи работников налоговой, на сайте nalog.ru

Можно посмотреть какой пользователь какие сайты посещал за последний год, даже можно идентицифировать департамент, по названию группы пользователей. 

Fishki, Playboy и порносайты — это конечно забавно и не тянет на скандал. Но показатель халатности админов, не закрывших сайт. В будущем это может привести к более серьезным утечкам как сотрудников налоговой, так и граждан.

Google

Банки плохо защищают свои сайты, данные и платежи клиентов легко могут попасть к злоумышленникам

Недавно я написал об утечках персональных данных в интернет-магазинах, и многих других типах сайтов.

Наибольший резонанс поднял вопрос утечек именно банковской информации, хотя там она по содержанию как раз не была так критична относительно других сайтов. Я показал лишь то что Сбербанк не защищает данные платежей клиентов компаний, которые пользуются его услугами, но критичная утечка на тот момент еще не успела произойти, это был лишь вопрос времени. Но к счастью, «дыру» оперативно исправили. (Правда на момент написания на некоторых других доменах Сбербанка, вижу, все еще отсутствуют файлы robots.txt)

Банки прокомментировали что никакой опасности в конкретной утечке не было (хотя это не так, о чем позже).

Решил проверить безопасность сайтов банков  глазами SEO-оптимизатора. То что увидел – удручающе.

Нашел множество сайтов где банковская информация незащищена, вот примеры страниц где вся информация может быть легко скомпрометирована:

МДМ-Банк

Локо-Банк, пример личного кабинета для Юр. лиц

Причем о некоторых уязвимых местах банки знают, а некоторые ошибки явно были допущены по халатности. Не представляю ни одну службу безопасности банка, которая бы разрешила сливать данные платежей и карточек, с CVC-кодами третьим лицам. Разбор ниже. Читать далее

Инструкция по переходу на протокол HTTPS без потерь

Пре переходе на защищенный протокол многие сайты испытывают проблемы с поисковыми системами, что выливается в потерю трафика и прибыли. Это является для многих останавливающим фактором и многие до последнего тянут, пока браузеры вообще не откажутся отображать сайт, заблокировав его показ. В среднем по отзывам вебмастеров и оптимизаторов — просадка составляет 20-30% на срок от нескольких недель до месяца.
Но если все сделать четко, предусмотрев все возможные ньюансы, можно безопасно перейти на HTTPS, не только не потеряв, но и получив в итоге прирост посетителей.
Примеры из личного опыта:

Пример изменения трафика при переходе на HTTPS сайта с многомиллионной аудиторией

Еще один пример сайта, одного из лидеров в своей отрасли

Читать далее

ВТБ, «Сбербанк», официальный сайт мэра Москвы — утечки данных пользователей продолжаются

В связи с последними скандалами по утечке персональных решили написать статью, где подробно объясним – почему это происходит и как с этим бороться.
Рассказывает Медведев Павел – SEO-специалист, эксперт по поисковым системам в Rush Agency.

Читать далее

Временная остановка поискового продвижения на срок от 1 до 3 месяцев

Иногда от клиентов поступают вопросы о том можно ли приостановить продвижение на период в 1-2 или несколько месяцев и чем это грозит. Рассмотрим какие риски могут ожидать сайт, и вообще, целесообразно ли приостанавливать продвижение.

SEO — это постоянный непрерывный процесс

Даже если не ведутся активные работы по развитию сайта, такие как сбор семантики, расширение структуры, добавление новых типов страниц, оптимизатор постоянно следит за состоянием сайта. Отслеживается его индексация, внесение несанкционированных внедрений со стороны программистов клиента, проводится поиск различных багов поисковых систем.

Пример небольшой выдержки из чеклиста регулярных проверок:

Читать далее