Статьи / Трибуна Шипилова: Русофобия русского поиска

Автор: Андрей Шипилов

Беспристрастный робот
События в Южной Осетии всколыхнули не только эмоции по обе стороны границы, но киберпространство. И речь идет не широко описанных взаимных атаках хакеров, которые то ли были, то их не было, но осадок от которых все равно остался.

То, что источники информации с обоих сторон, грешат, скажем так мягко, излишней односторонностью, стало ясно сразу. Есть куча мелких деталей, которые каждому опытному журналисту скажут с пол-оборота о степени ангажированности материала.

Установить истину путем сопоставления информации от обоих сторон, как это иногда получается делать, в этот раз не вышло: информация шла такими широкими и общими мазками, что вычленить из нее детали для зацепки было нереально.
А знать хотелось.

В конце концов, с той стороны были люди с которыми мы прожили бок о бок несколько столетий и слово «грузин» лично для меня ассоциируется не с «Шеварнадзе», «Саакашвили», а с «Данелия», «Чиаурели» и «Бараташвили».

Захотелось запустить по блогосфере эдакого робота, который фильтровал бы эмоциональный контент, подаваемый свидетелями с обоих сторон, отсекал бы искажения при цитировании, глушил бы комментарии, в которых истина тонула так, что ни одна поисковка не могла ее оттуда выцарапать.

Это бы желание так и осталось бы нереализованным желанием, если бы я не наткнулся в одном доменном форуме на любопытное обсуждение.

Некий «сквоттер» зарегистрировал домены на все варианты транслитерации слова «Цхинвали» и громогласно объявил в интервью какой-то газете, что сделал это из «патриотических соображений, чтобы грузины не захватили». Но ушлый форумный народ мигом раскопал истоки этого патриотизма: все захваченные домены висели на рекламной парковке, с контентной рекламой по самым дорогим ключевым словам и ремаркой «домен продается».

В ходе обсуждения вдруг оказалось, что сквоттер упустил из виду самое интересное — русскоязычные IDN домены Цхинвал.SU и Цхинвали.SU. А может и не упустил, а пожалел денег, все-таки на вторичном рынке домен .SU перепродать очень тяжело.

Тут уж у вашего покорного слуги тоже взыграл патриотизм и он зарегистрировал эти домены. Для чего? Чтобы сквоттеру — не досталось, понятное дело!

Ну а если всерьез, то мысль о запуске робота для вытаскивания более менее неотредактированной информации о Южной Осетии из первоисточников вкупе с наличием свободных знаковых доменов дала толчок для начала воплощения идеи.
Удалось!

На этом и закончу про Южную Осетию, а то невзначай скажу чего-то такое, за что потом придется краснеть.

Поговорю лучше о нейтральном, о «доменах на кириллице». Процесс создания реального сайта на кириллическом домене дал богатую пищу к размышлению и высветил кучу узких мест связанных с этой затеей.

Небольшая историческая справка
Возможность регистрировать и использовать домены на русских буквах в зоне .SU была предоставлена пользователям весной этого года. Тогда это вызвало некоторую волну обсуждений и даже непонимание смысла этой акции. Сразу же после объявления о такой возможности прошла бурная волна регистраций русскоязычных доменов, но все они как-то оказались у тех, кого раньше называли киберсквоттерами, а сейчас домейнерами. Случаи реального создания сайтов на таких доменах огласки не получили.

Небольшая техническая справка
На самом деле русскоязычные домены не вполне русскоязычные. Каждому доменному имени по-русски соответствует его латинский аналог, который имеет формат xn—БессмысленныйНаборЛатинскихБукв. Например имени Цхинвал.SU соответсвует латинское xn--80adroh0cg.su и вот это-та латинская козябра и является настоящим именем домена, а в Цхинвал.SU он уже преобразуется в самом браузере при помощи сложного алгортма punycode.

Моя плохо знает говорить по-русски
Первая проблема возникла с DNS. Форма регистрации провайдера русских букв не приняла. Пришлось вводить punycode имя xn--80adroh0cg.su.

Вторая проблема — с движком — CMS Joomla. В конфигурацию русскоязычное имя вписать получилось. И даже сайт заработал. Но вот управлять им, увы, не получилось. Панель администратора, где многое построено на Java-скриптах то и дело подчиняться отказывалась. Пришлось и здесь писать xn--80adroh0cg.su.

Впрочем, все это некритично. Посетителю в большинстве бразузеров не видно вовсе, что там прописано в недрах движка. И IE и Opera на лету преобразуют козябру в русские буквы. Правда FireFox не преобразует и показывает именно козябру.

Проблемы начинаются, когда сайт создан.

Чтобы дать посетителям доступ к информации не жаль потратить своих личных денег и купить у Google Adsense немного контекстной рекламы.

Увы, Google Adsense считает, что IDN доменов в природе не существует и отказывается рекламировать Цхинвал.SU. А вот xn--80adroh0cg.su — пожалуйста! Но то, что было еще приемлемо для CMS Joomla здесь уже категорически не подходит. Ну скажите на милость, вы будете кликать по ссылке xn--80adroh0cg.su?

Ну да ладно, есть ведь еще и поисковки.

Увы, "Яндекс" на Цхинвал.SU отреагировал сердито, пришлось вводить xn--80adroh0cg.su. Так что теперь в результатах поиска Яндексом будет показываться не сомнительное «Цхинвал», а вполне политкорректное «xn--80adroh0cg».

Рамблер Цхинвал.SU вообще «не заметил». Когда я ввел его в форму сабмита он вежливо сообщил, дескать, я ничего в форму вообще не вводил. А вот xn--80adroh0cg.su проглотил запросто. Теперь будет искать по такому этому словосочетанию и показывать его клиентам.

GoGo.ru нашел свою причину для отказа проиндексировать Цхинвал.SU «Ваша заявка не принята. На данный момент сайт не доступен. Возможная причина - проблемы с хостингом, на котором размещён сайт. Попробуйте повторить попытку позже». Разумеется, по адресу xn--80adroh0cg.su сайт был доступен и проблем с хостингом не было.

"Апорт" Цхинвал.SU тоже не понял. Впрочем, кто сейчас помнит о каком-то «Апорте»?

А вот зарубежные поисковки, Yahoo, Google, Цхинвал.SU не только поняли и приняли, но и на момент написания этой статьи уже успели проиндексировать.

Вот такой парадокс, господа. Те поисковики, которые говорят по-русски, русских имен не понимают. А те, которые говорят по-английски, понимают без проблем.

Впрочем, как оказалось, если вам даже и удалось создать сайт на русскоязычном домене и проиндексировать его, еще не факт, что его увидят те, кто захочет это сделать.

Сразу же после запуска от знакомых пошли сообщения: сайт Цхинвал.SU не открывается. Не открывался он из многих корпоративных и некоторых домовых сетей. Файрволы и прокси, как оказалось тоже не понимают кириллицы.

Впрочем по адресу xn--80adroh0cg.su проблем не было.

(Материал опубликован в рамках предоставления трибуны руководителям интернет-компаний и может не отражать точку зрения коллектива блога Roem.ru)

Комментарии RSS

  • Текст закрыт для комментирования
    • Alter Ego
    • Alter Ego
    • 19.08.2008 17:15:22 #
    Сейчас Медведев всем по шапке настучит.
    • Alter Table
    • Alter Table
    • 19.08.2008 17:22:10 #
    > Так что теперь в результатах поиска Яндексом будет показываться не сомнительное «Цхинвал»,
    > а вполне политкорректное «xn--80adroh0cg».
    > Вот такой парадокс, господа. Те поисковики, которые говорят по-русски, русских имен не понимают.
    > А те, которые говорят по-английски, понимают без проблем.

    Да ну ладно. Яндекс прямо сейчас первым результатом по запросу "цхинвал.su" показывает именно цхинвал.su, а не какой-то там xn--80adroh0cg. (Хотя, наверное, есть куда расти еще.)
    • Alter Ego
    • Alter Ego
    • 19.08.2008 18:52:10 #
    Какая прекрасная чернорубашечная фотография Шипилова рядом с заголовком!
    • Alter Ego
    • Alter Ego
    • 19.08.2008 19:19:19 #
    Объяснение этому феномену простое - IDN-аудитория западных поисковиков намного больше, чем IDN-аудитория национальных проектов.

    Поэтому естественно, что глобальные компании реализовали его поддержку намного оперативнее, чем национальные сайты и сервисы.
  1. Проблема с тем же "Яндексом" не только в том, что он показывает. Он не сильно заточен под полноценную работу с IDN - вопрос с тем же "Директом" далеко не праздный.
    • Alter Ego
    • Alter Ego
    • 20.08.2008 12:02:16 #
    Какой интернет-компанией руководит наш доблестный пресс-секретарь Центра Развития Айкидо?
  2. "Бизнес-центр", например.
    • Alter Ego
    • Alter Ego
    • 20.08.2008 12:52:55 #
    Что такое Бизнес-центр? Никогда не слыхали.
  3. >Какой интернет-компанией руководит наш доблестный пресс-секретарь Центра Развития Айкидо?

    C какой целью интересуетесь, господин Альтер Его?
  4. Могу Вас заверить, что научить поисковый движок понимать русские домены и правильно их отображать - дело 1ого дня.
    Просто это никому не нужно, потому что я например не знаю ни одного приличного сайта, который бы хотелось проиндексировать на таком домене.
  5. Мы когда с Шипиловым обсуждали текст, я вспомнил, что есть социальная реклама рекламирующая всякий малый бизнес, вроде "Деньгимолодым.su"

    Причем ребята закупили наружку, печатную рекламу и так далее. Сайты вполне приличные, хотя по ряду причин кажутся стремными.

    Я думаю, что IDN для маркетинговых целей будут использоваться достаточно часто. В этом случае быстрая индексация для них достаточно критична - их же открывают, обычно, лишь перед началом рекламных кампаний.
    • Alter Ego
    • Alter Ego
    • 21.08.2008 10:16:16 #
    Ура-патриотическая волна?
    Вау-эффект от Осетии?
  6. Мужик написал, как хотел отхватить остатки "навара" на <censored> и как затем пошагово облажался. ЛОЛ. Очень познавательная статья).
  7. Ну каждый, конечно, может видеть что он хочет, но определенные проблемы с поисковиками и их сервисами все же есть.

    При этом поддержать их можно и рано или поздно придется.
    • Alter Ego
    • Alter Ego
    • 22.08.2008 05:24:11 #
    А вот зарубежные поисковки, Yahoo, Google, Цхинвал.SU не только поняли и приняли, но и на момент написания этой статьи уже успели проиндексировать.

    Вот такой парадокс, господа. Те поисковики, которые говорят по-русски, русских имен не понимают. А те, которые говорят по-английски, понимают без проблем.




    А при чем тут патриотизм и русофобия? Просто технологии, баги-не баги
    Вы же не будете НИВА объявлять в непатриотизме потому, что Silverado от Шеви ходит по земле русской лучше "внедорожников" Нивы
    • Alter Ego
    • Alter Ego
    • 22.08.2008 10:55:23 #
    >Какой интернет-компанией руководит наш доблестный пресс-секретарь Центра Развития Айкидо?

    А он вовсе не пресс-секретарь. Читайте ФРИ внимательнее.
    Он - пресс-серетарь. Это совершенно другая должность, чисто айкидошная.
    Что он делает с прессой или с прессом, я даже боюсь предположить.
    • Симпай - старший ученик Сенсея
    • Симпай - старший ученик Сенсея
    • 22.08.2008 13:53:07 #
    что надо, то и делает с прессой - прессует своим прессом на прессухах (то есть на пресс-конференциях)
    там его часто видят :)
    • Alter Ego
    • Alter Ego
    • 22.08.2008 16:23:50 #
    Серетарь - серит? Засеривает?
    Сэмпай, отойди от мастера подальше, а то и тебя того.
  8. Ой навалили так навалили!
    Все на денек отошел, а тут такое.

    Почему именно к этой опечатке так прицепились?
    Неужели все у меня в таком идеале, что больше не к чему прицепится?

    Опечатка, она ведь дело такое, была она и нет ее. Равно как и самого пресс-секретаря.

    Welcome!
  9. Как же вы надоели своими русскими доменами.
    • Alter Ego
    • Alter Ego
    • 02.09.2008 16:44:29 #
    Между прочим, прикольная штука, хотя переключение клавиатуры и раздражает.

    Русофобия "Яндекса", кстати, проявляется еще и в том, что он блокирует ввод кириллицы в адресную строку.
  10. Там вообще-то настройка есть специально для патриотов. Если альтер-его про яндекс.bar для национал-коммунистического брузера.
  11. Национал-коммунистический "Яндекс.Бар" успешно блокирует всю кириллицу в адресной строке браузера.

    Что понятно - иначе по нажатию Enter он уходит в Google и прощай не лишний процент трафикогенерации.
  12. Ну вообще-то по результатам полуторамесячного наблюдения результат оказался довольно неожиданным.
    xn--80adroh0cg.su и цхинвал.su оказались проиндексированы Яндексом, как два разных домена.
  • Текст закрыт для комментирования

Новые комментарии RSS

Почитать

От читателей

Чтобы добавлять свои ссылки, надо зарегистрироваться на сайте