Автор: Андрей Шипилов
Беспристрастный робот
События в Южной Осетии всколыхнули не только эмоции по обе стороны границы, но киберпространство. И речь идет не широко описанных взаимных атаках хакеров, которые то ли были, то их не было, но осадок от которых все равно остался.
То, что источники информации с обоих сторон, грешат, скажем так мягко, излишней односторонностью, стало ясно сразу. Есть куча мелких деталей, которые каждому опытному журналисту скажут с пол-оборота о степени ангажированности материала.
Установить истину путем сопоставления информации от обоих сторон, как это иногда получается делать, в этот раз не вышло: информация шла такими широкими и общими мазками, что вычленить из нее детали для зацепки было нереально.
А знать хотелось.
В конце концов, с той стороны были люди с которыми мы прожили бок о бок несколько столетий и слово «грузин» лично для меня ассоциируется не с «Шеварнадзе», «Саакашвили», а с «Данелия», «Чиаурели» и «Бараташвили».
Захотелось запустить по блогосфере эдакого робота, который фильтровал бы эмоциональный контент, подаваемый свидетелями с обоих сторон, отсекал бы искажения при цитировании, глушил бы комментарии, в которых истина тонула так, что ни одна поисковка не могла ее оттуда выцарапать.
Это бы желание так и осталось бы нереализованным желанием, если бы я не наткнулся в одном доменном форуме на любопытное обсуждение.
Некий «сквоттер» зарегистрировал домены на все варианты транслитерации слова «Цхинвали» и громогласно объявил в интервью какой-то газете, что сделал это из «патриотических соображений, чтобы грузины не захватили». Но ушлый форумный народ мигом раскопал истоки этого патриотизма: все захваченные домены висели на рекламной парковке, с контентной рекламой по самым дорогим ключевым словам и ремаркой «домен продается».
В ходе обсуждения вдруг оказалось, что сквоттер упустил из виду самое интересное — русскоязычные IDN домены Цхинвал.SU и Цхинвали.SU. А может и не упустил, а пожалел денег, все-таки на вторичном рынке домен .SU перепродать очень тяжело.
Тут уж у вашего покорного слуги тоже взыграл патриотизм и он зарегистрировал эти домены. Для чего? Чтобы сквоттеру — не досталось, понятное дело!
Ну а если всерьез, то мысль о запуске робота для вытаскивания более менее неотредактированной информации о Южной Осетии из первоисточников вкупе с наличием свободных знаковых доменов дала толчок для начала воплощения идеи.
Удалось!
На этом и закончу про Южную Осетию, а то невзначай скажу чего-то такое, за что потом придется краснеть.
Поговорю лучше о нейтральном, о «доменах на кириллице». Процесс создания реального сайта на кириллическом домене дал богатую пищу к размышлению и высветил кучу узких мест связанных с этой затеей.
Небольшая историческая справка
Возможность регистрировать и использовать домены на русских буквах в зоне .SU была предоставлена пользователям весной этого года. Тогда это вызвало некоторую волну обсуждений и даже непонимание смысла этой акции. Сразу же после объявления о такой возможности прошла бурная волна регистраций русскоязычных доменов, но все они как-то оказались у тех, кого раньше называли киберсквоттерами, а сейчас домейнерами. Случаи реального создания сайтов на таких доменах огласки не получили.
Небольшая техническая справка
На самом деле русскоязычные домены не вполне русскоязычные. Каждому доменному имени по-русски соответствует его латинский аналог, который имеет формат xn—БессмысленныйНаборЛатинскихБукв. Например имени Цхинвал.SU соответсвует латинское xn--80adroh0cg.su и вот это-та латинская козябра и является настоящим именем домена, а в Цхинвал.SU он уже преобразуется в самом браузере при помощи сложного алгортма punycode.
Моя плохо знает говорить по-русски
Первая проблема возникла с DNS. Форма регистрации провайдера русских букв не приняла. Пришлось вводить punycode имя xn--80adroh0cg.su.
Вторая проблема — с движком — CMS Joomla. В конфигурацию русскоязычное имя вписать получилось. И даже сайт заработал. Но вот управлять им, увы, не получилось. Панель администратора, где многое построено на Java-скриптах то и дело подчиняться отказывалась. Пришлось и здесь писать xn--80adroh0cg.su.
Впрочем, все это некритично. Посетителю в большинстве бразузеров не видно вовсе, что там прописано в недрах движка. И IE и Opera на лету преобразуют козябру в русские буквы. Правда FireFox не преобразует и показывает именно козябру.
Проблемы начинаются, когда сайт создан.
Чтобы дать посетителям доступ к информации не жаль потратить своих личных денег и купить у Google Adsense немного контекстной рекламы.
Увы, Google Adsense считает, что IDN доменов в природе не существует и отказывается рекламировать Цхинвал.SU. А вот xn--80adroh0cg.su — пожалуйста! Но то, что было еще приемлемо для CMS Joomla здесь уже категорически не подходит. Ну скажите на милость, вы будете кликать по ссылке xn--80adroh0cg.su?
Ну да ладно, есть ведь еще и поисковки.
Увы, "Яндекс" на Цхинвал.SU отреагировал сердито, пришлось вводить xn--80adroh0cg.su. Так что теперь в результатах поиска Яндексом будет показываться не сомнительное «Цхинвал», а вполне политкорректное «xn--80adroh0cg».
Рамблер Цхинвал.SU вообще «не заметил». Когда я ввел его в форму сабмита он вежливо сообщил, дескать, я ничего в форму вообще не вводил. А вот xn--80adroh0cg.su проглотил запросто. Теперь будет искать по такому этому словосочетанию и показывать его клиентам.
GoGo.ru нашел свою причину для отказа проиндексировать Цхинвал.SU «Ваша заявка не принята. На данный момент сайт не доступен. Возможная причина - проблемы с хостингом, на котором размещён сайт. Попробуйте повторить попытку позже». Разумеется, по адресу xn--80adroh0cg.su сайт был доступен и проблем с хостингом не было.
"Апорт" Цхинвал.SU тоже не понял. Впрочем, кто сейчас помнит о каком-то «Апорте»?
А вот зарубежные поисковки, Yahoo, Google, Цхинвал.SU не только поняли и приняли, но и на момент написания этой статьи уже успели проиндексировать.
Вот такой парадокс, господа. Те поисковики, которые говорят по-русски, русских имен не понимают. А те, которые говорят по-английски, понимают без проблем.
Впрочем, как оказалось, если вам даже и удалось создать сайт на русскоязычном домене и проиндексировать его, еще не факт, что его увидят те, кто захочет это сделать.
Сразу же после запуска от знакомых пошли сообщения: сайт Цхинвал.SU не открывается. Не открывался он из многих корпоративных и некоторых домовых сетей. Файрволы и прокси, как оказалось тоже не понимают кириллицы.
Впрочем по адресу xn--80adroh0cg.su проблем не было.
(Материал опубликован в рамках предоставления трибуны руководителям интернет-компаний и может не отражать точку зрения коллектива блога Roem.ru)

Комментарии
> а вполне политкорректное «xn--80adroh0cg».
> Вот такой парадокс, господа. Те поисковики, которые говорят по-русски, русских имен не понимают.
> А те, которые говорят по-английски, понимают без проблем.
Да ну ладно. Яндекс прямо сейчас первым результатом по запросу "цхинвал.su" показывает именно цхинвал.su, а не какой-то там xn--80adroh0cg. (Хотя, наверное, есть куда расти еще.)
Поэтому естественно, что глобальные компании реализовали его поддержку намного оперативнее, чем национальные сайты и сервисы.
C какой целью интересуетесь, господин Альтер Его?
Просто это никому не нужно, потому что я например не знаю ни одного приличного сайта, который бы хотелось проиндексировать на таком домене.
Причем ребята закупили наружку, печатную рекламу и так далее. Сайты вполне приличные, хотя по ряду причин кажутся стремными.
Я думаю, что IDN для маркетинговых целей будут использоваться достаточно часто. В этом случае быстрая индексация для них достаточно критична - их же открывают, обычно, лишь перед началом рекламных кампаний.
Вау-эффект от Осетии?
При этом поддержать их можно и рано или поздно придется.
Вот такой парадокс, господа. Те поисковики, которые говорят по-русски, русских имен не понимают. А те, которые говорят по-английски, понимают без проблем.
А при чем тут патриотизм и русофобия? Просто технологии, баги-не баги
Вы же не будете НИВА объявлять в непатриотизме потому, что Silverado от Шеви ходит по земле русской лучше "внедорожников" Нивы
А он вовсе не пресс-секретарь. Читайте ФРИ внимательнее.
Он - пресс-серетарь. Это совершенно другая должность, чисто айкидошная.
Что он делает с прессой или с прессом, я даже боюсь предположить.
там его часто видят :)
Сэмпай, отойди от мастера подальше, а то и тебя того.
Все на денек отошел, а тут такое.
Почему именно к этой опечатке так прицепились?
Неужели все у меня в таком идеале, что больше не к чему прицепится?
Опечатка, она ведь дело такое, была она и нет ее. Равно как и самого пресс-секретаря.
Welcome!
Русофобия "Яндекса", кстати, проявляется еще и в том, что он блокирует ввод кириллицы в адресную строку.
Что понятно - иначе по нажатию Enter он уходит в Google и прощай не лишний процент трафикогенерации.
xn--80adroh0cg.su и цхинвал.su оказались проиндексированы Яндексом, как два разных домена.