Я обещал рассказать историю о запрете Google Chrome в нашей организации еще в треде про SMS - выполняю обещание.
Итак, жил-был сайт. Часть его страниц была закрытой админской зоной. Причем закрыта была не в robots.txt (а зачем?), а на уровне доступа "white list" - то есть зайти туда можно было только с офисных IP самой компании.
И как же было удивительно видеть часть этих страниц в выдаче Гугла, причем, (вот это уже За Гранью Добра) не только страниц, но и сниппетов и сохраненной копии.
В общем расследование показало:
- Робот Гугла, естественно, туда зайти не мог - получал 500-ю ошибку.
- Но - была куча заходов с реферером от офисного Google Chrome, причем даже от тех людей, вход которых не был предусмотрен служебными обязанностями.
- Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!). Вот откуда и сниппеты, и сохраненная копия.
Как результат:
- Ну в общем я понимаю, что персональные данные всем безразличны, но тут уже речь идет о корпоративной информации в публичном доступе. Неужели и ей готовы делиться с Империей Добра?
- Google Chrome в нашей организации объявлен Spyware и запрещен.
Первая мысль естественно была пойти в суд, но увы - я не в России, и у нас нет такого вкусного закона о персональной информации. Но мы размышляем над этим.
PS: Нотариально Заверенные Скриншоты и логи естественно есть, в паблик не могу выложить - не хочу светить компанию. Но Юре покажу по его просьбе.
PPS: Кстати, и robots.txt Гугль не соблюдает - прямо закрытые им страницы все равно будут в выдаче как найденные (по ссылке? Нет таких ссылок!), но уже без сниппета и сохраненной копии (и на том спасибо!) Примеры опять же есть.
-----------
Комментарий Roem.ru: всё-таки вспомним случай с вики "Яндекса" - закрытый раздел оказался публичным и попал в кэш и снипеты Google. Не могло ли быть такого?
И, пожалуйста, покажите скриншоты-логи на sinodov@roem.ru, я хотя бы в комментариях подтвержу, что что-то странное происходило.
Инсайды / Google Chrome отправляет контент страниц в индекс? (+)
- 29.07.2011 13:06:55
Новости
- Оборот "Яндекса" вырос до 20 миллиардов рублей в год 17
- Molotok.ru грозит пользователю судом за неуплату 16 рублей (UPD: не грозит) 32
- Яндекс.Деньги примут деньги для ООО и ИП без договора 14
- "Яндекс" по-прежнему раздает читателей новостным сайтам, "Рамблер" и Mail.ru - собирают контент 7
- twitter отдаст данные для поиска "Яндексу" 19
- "Рамблер" выпустил turn-by-turn навигацию 22
- GetTaxi будет конкурировать с "Яндекс.Такси" 5
- Google пренебрёг настройками приватности в Safari 22
- Еще один сотрудник Mail.ru ушел делать стартап о еде 16
- Молодёжный OpenSpace будет работать только по выходным 7
- Сбербанк раздаст Webmoney за "Спасибо" 8
- NOC-администратор "Яндекса" оказался владельцем 4% компании 45
Инсайды, Слухи, Открытки
- "Яндекс" не смогли заставить зачистить индекс 0
- Зачем Билайну Omen.ru? 5
- Михаил Гуревич считает, что Вспомни.ру и iii.ru оказались слишком хороши для Рунета 0
- Россия Онлайн (РОЛ) прекращает оказывать услуги 7
- В ЖЖ заработал новый рейтинг 2
- Наталья Лосева покидает РИА 2
- Дронов, когда заработает рейтинг Livejournal (на неделе)? 1
- Хедхантер готовит секретный проект, который изменит рынок поиска сотрудников 14
- Яндекс.Панорамы обеспокоили турецкую разведку 8
- Facebook подскажет, кого позвать на мероприятие 1
- Слух: говорят, что Bookmate продан 1
- Публичный саппорт: Олегу Куваеву не удается легально загрузить Масяню на YouTube 8
Новые комментарии 
- Alter Ego > Оборот "Яндекса" вырос до 20 миллиардов рублей в год (17)
- mephitis > Яндекс: найдутся все (41)
- whocares > Зачем Билайну Omen.ru? (5)
- buvaethuge > Как потерять подписчика на Facebook (16)
- Alter Ego > Россия Онлайн (РОЛ) прекращает оказывать услуги (7)
- Alter Ego > Наталья Лосева покидает РИА (2)
- Alter Ego > Яндекс.Деньги примут деньги для ООО и ИП без договора (14)
- grey > На собрании РОЦИТа произошел новый конфликт (164)
- sinodov > В ЖЖ заработал новый рейтинг (2)
- Alter Ego > Хедхантер готовит секретный проект, который изменит рынок поиска сотрудников (15)
- Alter Ego > Рекрутеры Бинга приедут в Москву в апреле (92)
- vk24119099 > Яндекс шантажирует журналистов Новостями? (14)
- Muzei > Facebook подскажет, кого позвать на мероприятие (1)
- roslyakov > Molotok.ru грозит пользователю судом за неуплату 16 рублей (UPD: не грозит) (33)
- lazarus > Google пренебрёг настройками приватности в Safari (22)
- lazarus > twitter отдаст данные для поиска "Яндексу" (19)
- Erjemin Sergei > "Яндекс" по-прежнему раздает читателей новостным сайтам, "Рамблер" и Mail.ru - собирают контент (7)
- sinodov > «ФИНАМ» будет кредитовать ИТ-компании по базовой ставке 18% годовых (4)
- StasL > GetTaxi будет конкурировать с "Яндекс.Такси" (5)
- Crio > Яндекс.Панорамы обеспокоили турецкую разведку (8)
Лучшие комментарии
Автор мне показал. Признавая справедливость множества вышенаписанных доводов, нельзя не сказать, что и его история с конкретными примерами выглядит впечатляюще (разумеется, он и сам признает, что доказать, что каталоги какое-то время не были открыты - невозможно)
Ссылки на страницы из каталога закрытого для индексирования - тоже понравились
Остальное автор расскажет сам, если захочет.
Контекст комментария
Комментарии
Вот в нем точно нифига не разберешь, что и где он индексирует, хранит и выдает.
Но вообще, информация эта не проходит "тест Авраама Линкольна", рекламировавшийся давеча Ашмановым.
Комментарий Crio отредактирован Crio 29.07.2011 13:28:04
P. S. Юрий, а как Вы подтвердите «странное»? Как Вы определите, что ограничение доступа на том сайте работало нормально и всегда?
Чувствую себя неудачником.
Дак проверяется легко - сделать несколько страничек, "закрытых" от поискового агента ответом сервера и походить по ним Хромом.
Да и исходики ведь его открыты - что стоит посмотреть знающим людям?
Смеётесь? Каждый юзер хрома в день посещает сотни закрытых страниц — от веб-почты до каких-нибудь интерфейсов соцсетей, доступных только этому юзеру. Что, все они попадают в индекс гугла?
"была куча заходов с реферером от офисного Google Chrome" - не удивительно, ведь вы из офисного Хрома туда ходите.
"Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!)" - логично. Ведь браузер сначала передает урл на сервер, в ответ получает содержимое страницы. Так HTTP иработает :)
Роботс и страныый урл - типа защита для лохов. Это ноль.
Доступ к приложению по авторизации. Это раз. На уровне приложения.
Закрытые портов, прокси и т.д. и т.п. Это два. На сетевом уровне.
Закрытые двери и люди с автоматами, отключение от внешних сетей, включая электрические (автономное питание). Это три. На физическом уровне.
Возможно, действительно дело в том, что выдавалась ошибка 500 - с 404 или 403, возможно, проблем не было бы.
Находка, конечно, удачная, но с моральной, а может и легальной стороной тогда проблемы. Публикации-то ведь не было, страница закрыта от просмотра по айпи, т.е. Гуглом были предприняты специальные действия, чтобы получить неправомерный доступ к закрытой информации. Все равно, что спереть в банке номера кредитных карточек, и ссылаться на то, что в каталоге, где были номера кредиток, robots.txt не было, и не выдавалась ошибка 404.
Стоит у нас на всех внутренних страницах и ничего не попадает в индекс.
Нет, дело в том, что описанное в статье — бездоказательный бред сивой кобылы, а толпа вроде бы умных людей этот бред всерьёз обсуждают:)
Я отлично понимаю, что доказать, что раздел никогда не был открыт - невозможно.
Так что кто хочет - может воспринимать это сообщение как бред или слух.
Но советую все же проверить, когда будете делать у себя закрытые по white list разделы.
http://www.google.com/chrome/intl/ru/eula_text.html
6. Конфиденциальность и личная информация
6.1. Информация о способах защиты данных, применяемых Google, изложена в политике конфиденциальности Google: http://www.google.ru/privacy.html и http://www.google.com/chrome/intl/ru/privacy.html. В этой политике описывается, как Google обрабатывает личную информацию и обеспечивает Вашу конфиденциальность при использовании Услуг.
6.2. Вы разрешаете использовать свои данные в соответствии с политикой конфиденциальности Google.
7. Содержание, используемое в Услугах
7.1. Вы осознаете, что за всю информацию (такую как файлы данных, текстовые материалы, программное обеспечение, музыка, аудиофайлы и другие аудиоматериалы, фотографии, видео и другие изображения), к которой Вы можете получить доступ в процессе использования Услуг, ответственность несет исключительно то лицо, от которого поступило это содержание. Вся подобная информация будет именоваться далее "Содержание".
...
7.3. Компания Google оставляет за собой право (но не берет на себя никаких обязательств) предварительно просматривать, помечать, фильтровать, изменять, отклонять или удалять Содержание (частично или полностью) из любых Услуг. ...
http://www.google.com/chrome/intl/ru/privacy.html
Кроме того, некоторые функции браузера Google отправляют в компанию Google дополнительную информацию.
Символы, которые вы вводите при указании URL или запросов в адресной строке, отправляются в поисковую систему, выбранную вами по умолчанию. Благодаря этому функция подсказок может автоматически предлагать варианты поискового запроса или URL, которые могут вам пригодиться. Если вы выбрали Google в качестве поисковой системы, браузер Chrome будет связываться с Google при запуске, чтобы определить наилучший локальный адрес для отправки поисковых запросов. Если вы решите предоставлять Google статистику использования и примете предложенный запрос или URL-адрес, Google Chrome отправит в Google также и эту информацию. ...
...
Если включена вспомогательная функция "Автозаполнение", Chrome отправляет в Google лишь некоторые данные о структуре страницы с веб-формами и сведения о самих веб-формах. Эта информация необходима для улучшения работы Автозаполнения на этой странице. Chrome может отправлять в Google информацию о том, заполнено ли то или иное поле, но сами введенные данные не отправляются. Исключение составляют случаи, когда вы разрешаете сохранять эти данные в своем аккаунте с помощью функции синхронизации Google Chrome.
Ели вы пользуетесь встроенной в Google Chrome функцией передачи данных о своем местоположении, браузер будет отправлять сведения о вашем сетевом подключении в службы определения местоположения Google, чтобы получить ваши приблизительные координаты. В зависимости от характеристик вашего устройства сведения о вашем сетевом подключении могут включать данные о ближайших маршрутизаторах WiFi, идентификаторы базовых станций сотовой связи, уровень сигнала и такие данные, как IP-адрес вашего устройства. Эти сведения используются для обработки запросов о местоположении, а также для работы, поддержки и улучшения Google Chrome и служб определения местоположения Google. Собранные сведения носят анонимный характер и агрегируются перед использованием разработчиками Google для создания новых и улучшения существующих функций, продуктов и служб.
...
Использование
Информация, которую получает компания Google, когда вы используете Google Chrome, необходима для обеспечения работы и совершенствования браузера Google Chrome и других служб Google. ...
====
Итого: all your database are belong to us © (тм).
Лучший комментарий. Развернуть?
в организации автора не принято сохранять логи веб-сервера?
возьмите результат из поиска, посмотрите на timestam,p кешированной копии - "It is a snapshot of the page as it appeared on XXX", посмотрите на логи веб-сервера в это время.
может какое-то время вы отдавали 200? или может вы отдавали 500 + нормальное тело? это можно понять по размеру ответа.
ну и, конечно, в таких случаях отдавать надо 403, т.к. 500 - это немного про другое.
я очень, ОЧЕНЬ сомневаюсь что к этому причастен хром. потому что даже для проверки на malware отсылается не url, а только хеш. (кстати, fun fact: IE9 отсылает в майкрософт имя, полный урл и хеш контента всех файлов, которые вы скачиваете)
из вышесказанного никак не следует, что страницы могут появляться в индексе.
А наказание... ФЗ "О персональных данных" защищает только личные данные гражданина. К данной истории отношения не имеет.
А вот к этой истории могут иметь отношение:
Уголовный Кодекс РФ
Статья 138. Нарушение тайны переписки, телефонных переговоров, почтовых, телеграфных или иных сообщений
Статья 183. Незаконные получение и разглашение сведений, составляющих коммерческую, налоговую или банковскую тайну
===
Использование
Информация, которую получает компания Google, когда вы используете Google Chrome, необходима для обеспечения работы и совершенствования браузера Google Chrome и других служб Google.
===
В число служб гугля, очевидно, входит поиск. //К.О., спасибо за подсказку.
Также, есть фраза и сведения о самих веб-формах. Так как нигде не оговаривает какие именно, очевидно, что в эти сведения попадает то, что попадает в сниппет. Собственно, что и поимел топикстартер. Кстати, по этой же схеме полностью закрытые форумы утекают, судя по частоте встречи в гуглоиндексе рассекреченных форумов.
о как. может, раскроете это ваше "очевидно"? я-то думал, что сведения о веб-формах - это данные из тега form, input name и т.п. и мне совсем не очевидно, что то, что попало в сниппет имело какое-то отношение к формам. автор, кстати говоря, об этом тоже не пишет.
а пишет автор, что "доказать, что раздел никогда не был открыт - невозможно", хотя на самом деле, имея простые вебсерверные логи, вполне возможно - апач/нжинкс по дефолту логают и размер ответа, и код, который отдали. более того, по информации в кеше гугла можно точно понять, когда робот последний раз фетчил страницу - я написал как, проверил на своём сервере: в логе нашлась запись гуглобота, с точностью до секунды. при проверке пусть не забудет про разницу в таймзоне. например, в кеше я вижу " It is a snapshot of the page as it appeared on 11 Jul 2011 18:23:15 GMT.", на сервере делаю простой grep и вижу:
$ grep -E '11/Jul/2011:..:23:15' access*.log
access.log:66.249.71.206 - - [11/Jul/2011:22:23:15 +0400] "GET [uri] HTTP/1.0" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 345 184
что означает, что гуглобот приходил на мой московский сервер, ему сказали что url not modified. стало быть, никаких чудес.
вот пусть автор проверит то же самое, это элементарно.
также хотелось бы поиметь доказательства вот этого заявления:
Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!). Вот откуда и сниппеты, и сохраненная копия.
потому что это, вообще говоря, бомба, ежели правда.
а что у вас с настройками кеширования? предполагаю, что если сервер отдаёт pragma: no-cache и/или expires в прошлом, то гугл не будет кешировать (впрочем, не уверен).
ну и у вас-то логи есть? если погрепать, то обращения от гуглобота находятся?
я, кстати, посмотрел исходники хромиума - что именно отправляется на сервер и зачем. отправляется дайджест полей формы (хеши от имен и типов инпутов), назад получается эвристика возможных типов значений. значения полей и содержимое тегов не передаются. кому интересно - вот FormStructure::EncodeFormRequest и AutofillField::FieldSignature. не верящим, что этот код в хроме идентичем коду в хромиуме, предлагается взять в руки дизассемблер и обосновать.
Комментарий rojer отредактирован rojer 30.07.2011 00:39:56
Тут выше AE пояснил, что не нужно съезжать в обсуждении на открытый Chromium. ТС пишет про Chrome.
> не верящим, что этот код в хроме идентичем коду в хромиуме
Это не важно, достаточно этого:
===
Исключение составляют случаи, когда вы разрешаете сохранять эти данные в своем аккаунте с помощью функции синхронизации Google Chrome.
===
Из этой фразы ясно, что гугл индексирует абсолютно все, что к нему попало - см. выше цитированные полиси про такие случае.
===
Мы стремимся избежать отправки через Google Chrome информации, с помощью которой можно было бы идентифицировать личность пользователя. Однако в отчеты о сбоях может включаться информация из файлов, приложений и служб, которые были открыты в момент сбоя. Мы можем передавать третьим лицам определенную агрегированную неличную информацию, которую мы получаем в результате анализа, например сведения о частоте возникновения сбоев определенного типа.
===
И как бы всем наплевать, что я в это время скачивал выписку по своему банковскому счету. Или сидел на закрытой внутрикорпоративной доске.
Но местные гуглоиды щас бросятся меня учить снимать галочки. Но вот беда - нас в компании много. И всегда найдется человек с умолчальным сетапом на его персональном ноутбуке.
Chrome базируется на Chromium. это сборка хромиума с копирайтами, pdf ридером, флешем и апдейтилкой. если вы делаете утверждение, что Chrome существенно отличается от Chromium в части передаваемых на сервер данных - на вас и задача обосновать это утверждение. дампы трафика, дизассемблированный код с вызовом BeEvil() или подобное - подойдут. патетическое заламывание рук и обобщения вроде "очевидно, что" - нет.
AE> Из этой фразы ясно, что гугл индексирует абсолютно все, что к нему попало - см. выше цитированные полиси про такие случае.
сохранять данные форм в аккаунте != выдавать содержимое страниц в результатах поиска. покажите мне где хром передаёт на сервер урлы, которые хотя бы теоретически можно было скормить пауку. я говорю - даже safe browsing api устроен так, что урлы на сервер не попадают.
что касается крэш-дампов, то при создании профиля (т.е. при первом запуске хрома) он спрашивает, отсылать их или нет. и - внимание - галка эта по умолчанию снята. можете спать спокойно.
Опять же хочу напомнить о robots.txt и о meta name="ROBOTS" content="noindex, nofollow".
Юра, а там есть логи снифферённых запросов из Хрома в Гугль с содержанием страниц? Просто ничто иное не имеет значения.
Вообще за последние дни технические специалисты проштрафившихся ресурсов показывают недюжие пабликрелейшеновские способности взамен осведомлённости в технических вопросах.
Логи, естетсвенно, есть. И естесвенно, как только мы такое обнаружили, они были прогрепаны на предмет гугльбота. Отсюда и пассаж про 500-ю (как выяснилось, мы ее отдавали на закрытом разделе, так получилось).
Сниф трафика мы тоже делали, но там часть уходит в https, и что конкретно внутри - понять сложно.
В принципе, утекла у нас некритичная информация, так что ущерб больше моральный, я выше писал - просто хочу предупредить быть осторожнее.
И насчет robots.txt - Я Юре бросал ссылку, закрытые им страницы все равно в индексе, как найденные по ссылкам. Но это Гугль сам себе злое буратино, ибо у нас закрыт юзерский раздел под логином, и прямой заход выдаст просто редирект на главную.
Вот смотрите что получается:
1. Вы проверяете логи на предмет гугльбота, хотя настаиваете что Хром отдаёт контент, а не урлы (логика размыта).
2. Вы рассказываете про 500 ошибку и редирект одновременно (RFC 2616, пп. 14.30 определяется однозначное поведение только для кодов ответа 3xx и 201).
3. Что конкретно передаёт Хром Гуглю вы не знаете (но это точно номера паспортов и запись переговоров директора с Богом).
И вот после всего этого вы хотите "просто предупредить быть осторожнее". Может стоит какбэ подучиться, прежде чем нести выводы в массы, так сказать?
p.s. robots.txt не панацея да, мета-роботс работает чётче
Это две разных темы.
Одна - с закрытой по IP админкой, которая таки была проиндексирована через Хром. Вот она отдавала 500 при заходе с неразрешенных IP. Логи бота смотрели как раз для нее, чтобы убедиться, что она была закрыта, и робот не мог с нее контент получить.
Вторая - про выдачу по ссылкам пользовательского раздела, закрытого в роботсе. Вот там как раз редирект.
и? я так понимаю, что ничего не нашли? уверены что искали во всех / в правильных логах искали? есть ли ваши страницы в кэше, можете ли сделать такую проверку как я делал? а то может получиться, что в какой-то момент проиндексировались, потом сервак переустановили, логи потёрли, в новых логах уже ничего нет и т.п. всякое бывает.
Автор новости> Сниф трафика мы тоже делали, но там часть уходит в https, и что конкретно внутри - понять сложно.
да, но это кагбэ не вяжется с вот этим вашим утверждением: "Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!)"
вот уж действительно - (!). собственно, только одним этим псто и интересен, а оказывается, что доказательств как-то не очень и есть.
1)причём тут инсайды?
2)Как может браузер "отправлять содержимое страниц"?
То есть он, получается, в два потока кеширует и шлёт в штаб Империи страницы целиком? Ну тогда абсолютно всем будет не трудно провести небольшой эксперимент. Потупить часок под Хромом, а потом часок под FF на каком-нибудь форуме (чтобы объём трафика был примерно одинаковым) - и потом сравнить таки кол-во исходящего трафа. По замыслу автора исходящий трафик должен почти удвоиться при использовании Chrome.
И что-то мне подсказывает, что такую аномалию ВСЕ заметили бы сто лет назад.
Комментарий Tarry отредактирован Tarry 30.07.2011 09:44:49
Всё с вами понятно. «Анализ трафика», видите ли, «показывает»…
Вы, кстати, всё время уходите от ответов на прямые и существенные вопросы. Какого размера был ответ с кодом 500? Ответьте уж, это не секретная информация. В логах это есть.
При том, что так называется раздел с пользовательскими новостями на Роеме. На главной, что ли, пояснение должно висеть, чтобы подобные вопросы не задавались? ;)
Видимо, надо просто переименовать это в "Пользовательское", как написано на главной, чтобы вопросов не возникало.
Автор, радуйтесь - вашу внутреннюю корпоративную информацию сделали организовали и сделали universally accessible
а что собственно в этом сложного? берём сниффер, который умеет работать с https и смотрим содержимое пакетов. по-моему это не сложнее, чем слушать http трафик.
Как вы это себе представляете? Может сниффер порекомендуете?
У вас на вашей стороне только часть ключа которая позволяет зашифровывать пакеты, а не расшифровывать. В принципе можно слушать https в конкретной программе типа броузера до того как он ушел в движок шифрования или если перехватить сессионный поточный ключ(для чего его тоже нужно взять изнутри программы)
Извините, я полнейший нуб в области криптографии, поэтому совершенно не понимаю, как это работает и просто беру http analyzer и смотрю трафик, который идёт от меня гуглу и обратно по протоколу https.
генерите себе сертификат CA, вставляете в trusted roots на машине и выписываете себе сертификат на нужный домен (что-нибудь.google.com). это делает возможным MITM атаку. готовый продукт не порекомендую, но в целом не вижу почему бы это не сработало.
но даже количественный мониторинг трафика дыл бы многое: как ни крути, если бы хром отсылал тела страниц в штаб - пусть не всех, пусть даже со сжатием, - то он бы генерил подозрительно много исходящего трафика. так что хотя бы корреляции вроде "загрузили N страниц по X кб страниц и с вероятностью P от хрома ушло Y кб в гугл". если можно установить какую-то корреляцию между X и Y, то можно сказать что количество трафика, передаваемого в штаб зависит от размера просматриваемы страниц. это меряется элементарно. начать можно с этого, потом уже организовать MITM через самопальный CA для подтверждения. но, естественно, куда интереснее и продуктивнее начать с поста на роеме под альтерэгой: у гугла репутация есть и её можно испортить, даже если кричать полную ерунду, но громко - кто-то да поведтся. а у альтерэги репутации нет, так что терять нечего. профит!
т.е. делая что-нибудь подобное описанному в статье, гугл будет продолжать доверять trusted roots на машине? Вкомпилировать свой сертификат они догадаться не могут?
Не, я не верю, что хром это делает, но предложенный метод проверки как-то не катит.
ну и см выше просто про количественный анализ трафика.
вот ещё полезный пост: Preventing paranoia: when does Google Chrome talk to Google.com?. трёхлетней давности, но, насколько я знаю, в целом верный и говорит о том, что паранойя по поводу слежки гугла за всеми через хром началась сразу после его запуска (пост от 5-го сентября 2008, хром вышел 2-го). народ тут же откопал RLZ и поднял шум, в ответ гугл открыл код либы, а также код автоапдейтера. с тех пор прошло почти 3 года и вышло уже 12 релизов, но никто ничего не нашёл. думаете, гугл так хорошо прячет? вы слишком плохо думаете о тех, кто ищет. вспомните ребят, которые продрались через все кордоны и реверснули скайп - а они там в своём бинарнике поставили серьёзную защиту (включая сертификат собственного CA, естественно - читайте Silver Needle in the Skype, весьма любпытно).
поймите же, что потенциальный репутационный вред от такой фичи намного превосходит потенциальную пользу от полученных таким образом данных. вероятность же раскрытия чрезвычайно близка к единице, потому что в мире много умных людей, знающих как пользоваться снифферами трафика и дизассемблером. гугл не мог бы себе это позволить, даже если бы хотел.
>>===
>>Из этой фразы ясно, что гугл индексирует абсолютно все, что к нему попало - см. выше цитированные полиси про такие случае.
по-моему, и так должно быть ясно, что функция синхронизации предполагает то, что данные твоего профиля хранятся на серверах гугла и вполне логично, что они предупреждают об этом.
и всё таки я больше склоняюсь к мнению, что в данном случае вина админа, как минимум из-за того, что он решил отдавать заголовок 500. вполне возможно, что вместе с этим заголовком отдавались и данные, и не смотря на то, что админ в своём браузере видел только сообщение об ошибке, гуглбот нормально загружал данные.
давно пользуюсь хромом и часто слежу за его поведением и пока ничего, выходящего за рамки обычного поведения не наблюдал, а тем более не наблюдал в индексе гугла тех сайтов, которые я посещаю, но на которые нет ссылок и это не смотря на то, что хром передавал гуглу на них ссылки для реализация функции авто-поиска.
dil.pp.ru/search1/ и dil.pp.ru/search2/
Внешних ссылок на них пока нигде нет, кроме как тут.
Обе не закрыты в robots.txt, но первая выдает роботам Гугла и Яндекса (по user-agent'у) пустое тело с кодом 403, вторая выдаёт нормальное содержание, но с кодом 500. Всем остальным содержание отдаётся как обычно с кодом 200.
Кому не лень, можете зайти туда хромом и прочими браузерами, оборудованными гугл-барами и яндекс-барами. Посмотрим, насколько быстро они окажутся в индексе и с какими параметрами.
Так возникают нездоровые сенсации ©
Яндекс на днях официально опровергал это. Бар не отправляет в поиск, только Метрика отправляла, но и это теперь отключабельно в настройках Метрики.
Где? Очень хочется почитать официальное мнение Яндекса по этому вопросу.
Проблема даже не в криворукости конкретных специалистов, а проблема с профессиональной самооценкой. Самоучки, бессистемно осилившие какие-то основы начинают считать себя серьезными специалистами. Поэтому, когда говно таки начинает тонуть, то конечно виноват кто-то третий, а не ты.
весомых доказательств утечки представлено не было, а доказать отсутствие утечки чрезвычайно сложно. по-моему, тему можно закрывать.
Добавил контрольную страницу dil.pp.ru/search3, она всем отдаёт 200. Хотя в чём будет её контрольность, я не понял. Само по себе её появление в выдаче ни о чём не скажет. Её могут добавить через addurl совершенно независимо от остальных. Или, наоборот, добавить остальные, а её не.
Заодно нашёл в логах интересную вещь: чей-то "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:5.0) Gecko/20100101 Firefox/5.0" пришёл с реферером "http://roem.ru/2011/07/29/addednews32694/", хотя на этой странице гиперссылок на /search* нет. Все остальные приходили с пустым реферером.
Про сейчас - не знаю, про прошлое - наглая ложь. Все помнят историю с бетой Ленты в выдаче? Вот через бар она как раз и ушла. Яндекс, не стыдно?
В пятом Фаерфоксе при клике правой кнопки по plain-тексту, похожему на УРЛ, появляется 3 кнопки меню "Open Link ...", я всегда так перехожу по таким ссылкам вместо Ctrl-C / Ctrl-V. При этом реферер передаётся в поле Referer (проверил только что с помощью плагина Tamper Data). Не разводи лишней паранойи, и так весь топик параноидальный.
ТС судя по всему просто некомпетентен, 500 - это Internal Server Error, Апач возвращает такую ошибку в случае ошибки (чаще всего - кривой настройки), скорее всего он настроил всё глючно через одно место, хотя думает что настроил белый список IP, при этом логи читать не умеет, трафик снифать тоже, и логи для общественности не предоставил, так что никаких хоть минимально убедительных доказательств вины Хрома нету.
скорее просто бардак и всеобщая (включая вашу) некомпетентность :)
66.249.66.83 - - [04/Aug/2011:10:59:28 +0100] "GET /search1/ HTTP/1.0" 403 20 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-" "dil.pp.ru"
На /search2/ приходил 4 и 5 августа:
66.249.66.83 - - [04/Aug/2011:14:09:03 +0100] "GET /search2/ HTTP/1.0" 500 231 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-" "dil.pp.ru"
66.249.71.54 - - [05/Aug/2011:00:14:57 +0100] "GET /search2/ HTTP/1.0" 500 231 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-" "dil.pp.ru"
66.249.66.83 - - [05/Aug/2011:12:42:54 +0100] "GET /search2/ HTTP/1.0" 500 231 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-" "dil.pp.ru"
Ни одна из трёх меток в гуглопоиске [пока?] не обнаруживается.
о чём речь? пока никто не смог подтвердить факт того, что браузер от гугла отправляет контент посещаемых пользователем страниц на сервера гугла, кроме того, не получить заставить гугл проиндексировать страницы с кодами ответов 403 и 500.
так что пока остаётся единственный возможный вариант - ошибка админа, который криво закрыл доступ, а когда заметил проблему, придумал на кого можно спихнуть вину.
И вы мне тут еще будете доказывать что гугл харошый.
антивирус микрософта по ошибке принял хром за вирус. и в чём же в данной ситуации вина гугла или других разработчиков хрома?
>>Если правильно понимаю исходную статью
статью понимаете правильно, но рекомендую прочитать комментарии. из них можно узнать почему описанное в статье не могло произойти и как такое могло случиться.
автор не представил доказательств и куда-то слился, эксперимент, который поставил один из комментаторов, тоже, я так понимаю, ничего не дал.
так что можно нести вилы и рогатины обратно в сарай и расходиться.
Но вообще интересно - я вот не верю, что мелкософтовцы специально гасили конкурентов. А вот в то, что сигнатуры совпали со спайварем - почему-то верю больше.
"Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!)."
вот хотелось бы на этот анализ посмотреть и провести аналогичный.
> я вот не верю, что мелкософтовцы специально гасили конкурентов. А вот в то, что сигнатуры совпали со спайварем - почему-то верю больше.
да, сигнатуры совпали, потому что это были плохие сигнатуры - иначе с чего бы МС стала бы исправлять их? я тоже не верю, что они гасили конкурентов. я думаю, что это просто ошибка. плохие сигнатуры выпускали уже абсолютно все вендоры, а гугл однажды отличился, пометив все результаты поиска как malware. бывает. shit happens.
а вы случаем не путаете понятия "сигнатура" и "хеш"?
и как по вашему мнению, сколько антвирусов скажут о программе, что она вирус, если программа будет состоять из одной строки "writeln('Iam virus')"?
Комментарий Дмитрий Москин отредактирован Дмитрий Москин 04.10.2011 23:28:22
дайте угадаю: на самом деле, это заговор. МС и гугл только делают вид, что конкурируют, а на самом деле они состоят в сговоре, чтобы... извините, тут моей фантазии не хватает. но направление я угадал, да? так что вы продолжите мысль, я думаю.