Наглядно о проблеме кодировок многострадального русского языка

Аватар пользователя И-23

Обсуждение теоретического анализа проблемы (http://aftershock.news/?q=node/340931) ожидаемо продемонстрировало лишь упадок культуры абстрактного мышления.
Поэтому я решил наглядно показать игнорируемые в силу привычности иллюстрации проблемы.
Чтобы далеко не ходить — на примере AS.

Кириллические URL
«Использование кириллицы запрещено в файлах robots.txt и http-заголовках сервера.»
https://yandex.ru/support/webmaster/yandex-indexing/cyrillic-urls.xml
От себя добавлю: далеко не только в них, но задачи исчерпывающего описания здесь не ставится.

http://absurdopedia.net/wiki/%D0%90%D0%B1%D1%81%D1%83%D1%80%D0%B4%D0%BE%...

http://absurdopedia.net/wiki/Абсурдопедия:Про_список_Минюста

Обратите внимание на читаемость и определение активной части ссылки.

Или для кириллического домена:

http://николай-стариков.рф/

Наглядная иллюстрация последнего (да извинит меня кислая, просто первый попавшийся на глаза пример): http://aftershock.news/?q=node/358910 Смотрим строку ссылки на первоисточник. Утверждающие решённость проблемы читают вслух и с выражением строку «xn--b1ae2adf4f.xn--p1ai» (самое смешное, что текущий FF в буфер памяти копирует вполне читаемое «провэд.рф»).

Вишенкой на торте: фрагмент снимка экрана AS, наглядно показывающий виртуальность проблемы (снимок добыт с предыдущей реинкарнации ресурса, из зоны SU):

Товарищи конечно не затруднятся прочитать рядок вопросительных знаков. ☺

Организационное: Согласно заверениям целого ряда несомненно квалифицированных товарищей проблемы не существует (и как бы вообще не существовало).
Поэтому не стоит тратить сугубо ограниченные ресурсы на исправление перечисленных огрехов в рамках АШ полагаю нерациональным.
Куда правильнее будет просто спросить с товарищей, утверждающих отсутствие проблемы, за приведение наблюдаемой действительности в соответствие с постулируемой догмой.

ЗЫ: Ещё из наглядного — ёмкость SMS в символах как нагляднейшая иллюстрация равноправия языков.

ЗЗЫ: Update: читаю объявление в электричке (экспресс).

На улице -10ёС

Проблемы не существует, она давным-давно решена.

Комментарии

Аватар пользователя alexsword
alexsword(12 лет 5 месяцев)

Что за браузер? Попробуй другой какой-нибудь нормальный.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

FireFox не относится к нормальным браузерам?

Аватар пользователя alexsword
alexsword(12 лет 5 месяцев)

У меня там нет такого, установка по умолчанию, без всяких плагинов и приплясываний.

Номер версии какой?

Аватар пользователя sgerr
sgerr(12 лет 2 месяца)

судя по шрифту, это ФФ с линукса

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Для кросс-платформенных приложений разницы не должно быть, не так ли? ☺ И потом, Вам никто не помешает поставить тот же шрифт в win32-сборку. Даже ttf в Сети есть ☺

Аватар пользователя sgerr
sgerr(12 лет 2 месяца)

> Для кросс-платформенных приложений разницы не должно быть, не так ли?

так точно.

> И потом, Вам никто не помешает поставить тот же шрифт в win32-сборку. Даже ttf в Сети есть

я это знаю.

ЗЫ стало быть, не подводит меня зрение ;)

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Текущий ESR (38.4.0).
В текущей реализации (в зоне NEWS) проблемы с картинки я не наблюдаю.

А вот условно-читаемые ссылки вместе с игнорированием кириллицы ЕМНИП и в win32-версиях встречаются (4Х).
При расхождении показаний прошу показать снимок страницы.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Ещё из странностей заслуживающих внимания, но не стоящих записи:
Только у меня http://aftershock.news/?q=node/357629 («США: Впервые с 2006 года ФРС подняла ставку!») в блоке популярных статей встречается дважды?

Аватар пользователя amfoed
amfoed(9 лет 2 месяца)

Слушай, умник, ты вообще помнишь что было 20 лет назад в интернете?

Вот это были проблемы, война кодировок, разные стандарты, криворукие протоколы, не учитывающие языковое разнообразие, и т.д.

Сейчас есть UTF8, все ОС и все современные софтины (за очень маленьким исключением) его поддерживают, проблема РЕШЕНА.

Про смс (да и вообще всю языковую "проблему")  - ты догоняешь, что для единообразного использования/отображения букв всех алфавитов необходимо использовать больше байт на единицу информации для ее кодировки? Это объективный факт. Ты в состоянии уяснить, что это глобальная проблема, не касающаяся только одной лишь кириллицы? И что у китайцев и других проблем НАМНОГО больше?

И делать выводы вселенской глупости на основании примера смс - идиотизм.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Явление наблюдается _только_ в интернетах?
Высокообразованный гуру не в курсе того, КАК дряхлеющий лидер рынка поддерживает UTF8?

Ещё могу вспомнить о дистанции от существования технологии, в которой заявляется решение некоторой проблемы, до повсеместной поддержки отработанной редакции этой технологии.

Аватар пользователя adlerm
adlerm(9 лет 8 месяцев)

кто-то на баше писал в духе: "я ненавижу американцев, потому что им не надо переключать раскладку"..

Аватар пользователя Omni
Omni(11 лет 7 месяцев)

Может тогда и бинарники должны "блокнотом" по-русски разбираться (disassembling). Ну не допилили ещё русскоязычные программисты отображения сути значением, было-бы из-за чего кипишь поднимать.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Проблема не в этом, а в натуральном налоге на использование «недемократических» языков.

Аватар пользователя Omni
Omni(11 лет 7 месяцев)

Нет никакого налога, кто первый встал - того и тапки, кому не нравится делают своё или пользуется готовым, потом всё устаканится, тем более ниша программистов у нас сейчас расширяется по теме импортозамещения. Если уж на то пошло, то чего-бы не по-бузить на тему замены египетской четырёхипостасности "пространства-времени-энергии-материи" на триединство "материя-информация-мера" в системе образования? Вот где налог|забор.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Тут помнится была прекрасная статья с сравнением электрификации экономического и технологического лидера в лице режима старейшей демократии с ГОЭЛРО.
Издержки принципа (кто первый встал, того и тапки, кому не нравится — изобретают свой велосипед) для системы в целом раскрывает достаточным образом.

ЗЫ: Расширение ниши на фоне общего упадка культуры счастья не принесёт.

ЗЗЫ: Предложение интересное. Спасибо. Буду думать ☺

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

В этом случае я бы начал с вопроса достоверности античной истории (Вы не знакомы с прекрасным описанием эпопеи триремщины?). Там правда больше грекам достаётся… но один элемент неизбежно потянет зависимости. В том числе и Египет.
Вы знакомы с одной из реконструкций (выходом сверху) начала человеческой истории (К. Крылов, «Поведение»)?
В данном случае интересен концепт т.н. «второй этической» системы. Объясняет «золотой век» и описания достижений предков (обычно удалённых до исключения надёжной верифицируемости).

*Подумав* всем этим сложным многочленным концептам место на свалке истории. Рядом с философией и лженаукой-кибернетикой.
И ни в коем случае нельзя забывать и прослеживающуюся не только в истории тенденцию ускорения развития.

Аватар пользователя Omni
Omni(11 лет 7 месяцев)

Про триремы читал расчтёты диаметра вёсел верхней палубы - улыбнулся.

Закон времени никто не отменял - это да.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Не… Оно было. И даже плавало. ☺

В эпопее «реконструкции» (точнее — изобретения) триремы куда интереснее использование корпуса типа полумонококк (решение, восторжествовавшее после достаточного торжества мать-и-матики, где-то к середине XX века) с растяжками на стальных тросах (потому что _нейлоновые_ канаты (!) уже на масштабной модельке того… рвались).

ЗЫ: Выделение и описание закономерности — первый шаг. На котором нельзя останавливаться и надо переходить как минимум к анализу и объяснению.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Для читаемости архива отмечу ссылку на анализ реконструкции.

Аватар пользователя bobka
bobka(10 лет 3 месяца)

Утверждающие решённость проблемы читают вслух и с выражением строку «xn--b1ae2adf4f.xn--p1ai»

Читайте с выражением «xn----7sbbi0adegfetohznq.xn--p1ai», легче станет.

 

Аватар пользователя Ficher
Ficher(9 лет 5 месяцев)

Что такое АS ?

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

AfterShock

Аватар пользователя Алеман
Алеман(9 лет 4 месяца)

Всё никак не забуду, как в теме про "вечный двигатель" , втиснули слово "рассеянский".

А тут самое важное это адрес? )  http://николай-стариков.рф/

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Адрес — первое что придумалось кириллическое приемлемой уместности ☺
Предложите лучший вариант ;)

Аватар пользователя Алеман
Алеман(9 лет 4 месяца)

Поздно, я уже сходил проверить, на кириллице всё и осталось). Давно на опере было такое, «xn--b1ae2adf4f.xn--p1ai» .

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Я тоже помню времена, когда в FF для отображения кириллицы в относительной части URL'а (кириллических доменов тогда вроде не было) надо было ставить отдельное расширение.

Аватар пользователя vleo
vleo(9 лет 8 месяцев)

Я просмотрел Вашу оригинальную статью про кодировки - замечательный обзор, но надо его почитать на свежую голову.

Тем не менее ответ простой - надо использовать UTF-8. Да и сам Unicode достаточно продуман.

Что касается решения WWW по части кодировки URL - ну а что прикажете делать, чтобы и старые браузеры работали, которые про UTF-8 ни сном, ни духом? Один выход закодировать Unicode в обычное ASCII.

Всем программистам сесть и один раз крепко въехать в то, что такое Unicode.

Ну, конечно, под Windows реализовано криво, но что еще было ожидать от Микрософта.

А вот то, что большая часть русскоязычных докуменов на серверах в рунете закодировано то в CP1251, то в cp866, то в koi8 - это прискорбно. Я в vi настроил кнопки перебрасывать кодировки - пробежишься по 3м кодировкам - на одной и прочтешь. Хуже то, что имена файлов некоторые умники тоже в cp1251 копируют - особенно в архивах, это да, достает.

Если бы все перешли поскорее на UTF-8, то и проблем бы не было. А насчет адресов URL - никакой более разумной альтернативы тому, что есть - не придумать, если иметь в виду обратную совместимость.

Аватар пользователя Egao
Egao(9 лет 2 месяца)

Юникод еще то гуано. Мертвые языки поддерживаются лучше китайского например.

Аватар пользователя Smogg
Smogg(9 лет 4 месяца)

поиск по юникоду гуано тоже

Комментарий администрации:  
*** Отключен (лидер бан-рейтинга, высказывания типа "РИ была таким же ублюдком, как СССР и как РФ. Это генетическое, неизлечимое)" ***
Аватар пользователя И-23
И-23(8 лет 6 месяцев)

А это как раз одно из воплощений проблемы (помним о главном конкурентном преимуществе UTF8 и следствии из него в виде проработки периферийных деталей), поднимаемой в теме.

Аватар пользователя vleo
vleo(9 лет 8 месяцев)

А что, к этому есть принципиальные техническо-математические проблемы, или просто реализация плохая? Ну уж - национально озабоченные если, то пусть делают нормальную реализацию.

Извините, но нулевая страница только одна. И на ней сидит латиница английского языка. А вы хотели бы там русский видеть? Ну извините - приоритет США во внедрении персональных компьютеров очевидный и бесспорный. Во-первых они были и в самом деле первые, во-вторых у нас был единственный вменяемый ответ на это - кодировка KOI-8 (у которой при примитивной реализации проблемы с сортировкой :-) но в ней можно было читать текст на русской, хотя и кодированный английскими буквами.

А так - Unicode это адекватное решение. Ничего лучшего не было и не будет и быть не может. Аминь.

Аватар пользователя Smogg
Smogg(9 лет 4 месяца)

А разве я сказал, что другие универсальные варианты лучше? А KOI-8 - это в первую очередь все таки костыль.

Комментарий администрации:  
*** Отключен (лидер бан-рейтинга, высказывания типа "РИ была таким же ублюдком, как СССР и как РФ. Это генетическое, неизлечимое)" ***
Аватар пользователя И-23
И-23(8 лет 6 месяцев)

UTF16, кстати, перспективнее. Хотя явно недостаточен.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Практическая реализуемость в число «принципиальных техническо-математических проблем» не входит?
В качестве наглядного и крайне характерного примера — скажем так «особенность реализации» кросс-платформенной графической библиотеки Qt (как там _сейчас_ дела обстоят не в курсе, известные костыли на месте)?

Касаемо «приоритета» — очень важная и политкорректная оговорка о демократичнейшем относительно честном (без упоминания первоисточников и честного признания приоритетов) заимствовании фундаментальных разработок.
Ещё к демократическому превосходству, помимо «железного занавеса» упоминались интереснейшие наблюдения об организации внезапно-случайной проницаемости оного.

И возвращаясь к порядочности — рекомендую начать с исследования знания буржуинскими специалистами теоремы Котельникова.
После чего можно исследовать главное достижение «первооткрывателя»-норберта.

ЗЫ: Справочно сюрприз: «юникод» != UTF8. Которую реализацию Вы имели в виду. Вангую UTF16 (не смотря на то, что у него нет определяющего «преимущества» UTF8).

Аватар пользователя vleo
vleo(9 лет 8 месяцев)

Приоритет рыночный, объективный, нравится это кому-то или нет.

UTF8 это вариант транспорта для Unicode, который мне разумным представляется.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Вы хотели сказать, что в процветающем режиме эталонной демократии давным-давно отработаны и внедрены в промышленную эксплуатацию технологии, позволяющие обобрать создателя в пользу успевшего подсуетиться делового человека?
И эта практика использования колониальной ренты (успех немедленно закрепили парой миировых войнушек и утвердили в качестве «мировой валюты де-факто») для приватизации результатов фундаментальных исследований и имитации приоритета на прикладном уровне называется «объективностью»?

ЗЫ: Не расскажете ли каким образом UTF8 «транспортирует» например UTF16 и почему даже в поддерживающих UTF8 приложениях в качестве «транспорта» для наличных СПД я наблюдаю base64? Не менее показателен пропуск вопроса оптимальности существующих решений.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Вы посмотрите и примеры из этой записи.
Я конечно мог что-то упустить, но…
Насколько мне известно, кириллица относительной части url'а физически представлена нечитаемым рядом. Который современные браузеры при отображении приводят к читаемому виду. Но как минимум FF копирует в буфер памяти реальную строку (первый пример). Всей пользы в которой то, что она корректно интерпретируется всеми.
Ниже смотрите результат автоопределения той же ссылки в читаемом виде. По крайней мере наличная версия движка АШ кириллическую часть игнорирует. Что, по моим наблюдениям, в Сети скорее правило. Но встречал ресурсы где эта «фича» исправлена.

Проблема не столько в именах файлов (думаю, этим умникам очень понравится получить тот же архив с кириллическими именами файлов в KOI8-R), сколько в том, что эта фича (английский язык должен быть ЕДИНСТВЕННЫМ гарантированно-поддерживающимся) свойственна историческим, но всё ещё популярным форматам архивов).

ЗЫ: Не забываем, что UTF8 по стандарту не вполне совпадает с прочтением этого стандарта майкрософтом.

ЗЗЫ: ISO-8859-5 нашё фсё! ☺

Аватар пользователя Не_волшебник
Не_волшебник(9 лет 7 месяцев)

Нужны ли кириллические названия доменов?

С точки зрения управления государством - да. С технической точки зрения - теперь уже нет. Почему. Потому, что сегодня пользователю они не нужны. Объясняю.

История появления доменных имён была связана с решением двух проблем. Первая - необходимо было отвязать техническую реализацию от логической. Зачем - затем, что технически адреса в сети это набор цифр, которые могут со временем меняться. Причём независимо от желания хозяина домена, а по техническим причинам. Но при этом доступ к домену должен сохраняться. Поэтому пользователю надо бы передавать не физический адрес, а его логический идентификатор. Вторая проблема в том, что этот логический идентификатор пользователю надо как-то передать и запомнить, как номер телефона - ибо поисковых машин в то время ещё не было. Решили, что имена собственные это то самое логичное и понятное решение. Во времена, когда Яндекс был всего лишь каталогом и помещался не дискету - пользователю действительно нужно было помнить адреса сайтов. Сейчас же пользователю достаточно знать где у браузера поисковая строка - всё. 

Какая разница какое доменное имя у Лямбда Банка? ЛямбдаБанк.РФ или Лямбда_Банк.рф или ещё как-то... lyambda-bank.ru или lambda-bank.ru - никому это не надо - есть браузер, есть поисковая строка - пиши и всё откроется.

Короче - тема с доменными именами уже не актуальна. Для универсальности технические специалисты предпочитают, конечно, латиницу, как и медики к примеру. А все остальные - политики и маркетологи - без разницы по большому счёту.

Аватар пользователя Smogg
Smogg(9 лет 4 месяца)

"Я водитель. Я не хочу ни в чем разбираться.

Я хочу - педалька и фыр-фыр-фыр"

Комментарий администрации:  
*** Отключен (лидер бан-рейтинга, высказывания типа "РИ была таким же ублюдком, как СССР и как РФ. Это генетическое, неизлечимое)" ***
Аватар пользователя vleo
vleo(9 лет 8 месяцев)

Это часто и так ясно из Ваших замечаний :-) ничего, у всех есть свои недостатки

Вы бы попросили администрацию себе это в подпись - очень будет в тему :-)

Аватар пользователя Smogg
Smogg(9 лет 4 месяца)

коммент-прикол заметили, а по делу - пропустили. Я не просто так сделал смысловое разбиение по комментам, а не по абзацам.

Комментарий администрации:  
*** Отключен (лидер бан-рейтинга, высказывания типа "РИ была таким же ублюдком, как СССР и как РФ. Это генетическое, неизлечимое)" ***
Аватар пользователя Smogg
Smogg(9 лет 4 месяца)

Таких романтиков белых списком надо бить по голове на взлете, превентивно.

Комментарий администрации:  
*** Отключен (лидер бан-рейтинга, высказывания типа "РИ была таким же ублюдком, как СССР и как РФ. Это генетическое, неизлечимое)" ***
Аватар пользователя Не_волшебник
Не_волшебник(9 лет 7 месяцев)

Вы как-то издалека заходите - сказать-то чего хотели?

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Область применимости предлагаемого решения полагается глобальной.
Издержки игнорируются.

Тем временем, совсем недавно в качестве одного из решений с доступностью правильной версии АШ рекомендовали редактирование hosts (что тождественно явному использованию доменного имени или привычных закладок).

Аватар пользователя Не_волшебник
Не_волшебник(9 лет 7 месяцев)

Вышел казус - да. Типичная беда для песочниц, которые переростают своих создателей. Переиндексирует поисковик - всё нормально, могли бы и ускорить этот процесс отписав на Яндекс и зарегистрировав новый адрес. Но оно и так произойдёт автоматически только позже.

Область применимости предлагаемого решения полагается глобальной.
Издержки игнорируются.

Не-а. Если речь идёт о делах государственных - то значит об электорате. А электорат ходит через поисковик - параллельно к вопросу о белых списках =) Они и так есть уже давным давно.

Технически - да, специалистов коробит, получается не красиво и технически криво. Но, если спрос на это дело будет - допилят как надо и апач и браузер, есть же Яндекс, Спутник браузеры. Но спрос был на волне, а сейчас? А сейчас кому это нужно?

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Интересно, понимаете ли Вы следствия и издержки «специалистов коробит, получается не красиво и технически криво»?

Аватар пользователя Не_волшебник
Не_волшебник(9 лет 7 месяцев)

Интересно, понимаете ли Вы следствия и издержки «специалистов коробит, получается не красиво и технически криво»?

О каких последствиях идёт речь? Если говорить в математически глобальном смысле - потеря универсальности это беда. Если говорить о потере доступа к информации... А она нужна? Цена этой информации и её значение?

Если Вы обыватель - то хОдите через поисковик на Википедию или ещё, что он Вам выкинет. Если специалист, то в Википедию Вы точно не полезете за цитатами Сталина или ещё чем, а пойдёте (ножками) к первоисточнику в архив.

Сеть в глобальном смысле хороша чем, вне зависимости от желания политиков математика (логика) возьмёт своё рано или поздно. Техническим специалистам - да гемор, но им платят за это. Ну, хочицца поиграть некоторым не умным людям в "самость" - пусть играются и платят, платят и играются.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

Если бы у Вас был личный опыт сопровождения (и доработки!) создававшейся по описанным принципам системы. Да так, чтобы за результат спрашивали с Вас. Вы бы не задавали этого вопроса.

Упоминание википедии (читаем — _русскоязычного_ раздела) — очень характерный пример.
В части конъюнктуры фильтрации информации (свойственной, впрочем, уже изначальному энциклопедизму).
Вы конечно же помните прекрасную эпопею с удалением википедией статьи про голодомор? Под совершенно прекрасным предлогом «отсутствия научной ценности». И с навешиванием уничижительного ярлыка «теория Борисова».

ЗЫ: Вообще-то позиция современных публичных аватаров власти неинтересно. Интересны воплощённые вечные интересы Капитала.
Помните как века не прошло, и антисемитизьм из респектабельного (и обоснованного) общественного движения превратили в главный смертный грех современности (что приобретает особенную пикантность на фоне главного преступления Союза)?

Аватар пользователя Не_волшебник
Не_волшебник(9 лет 7 месяцев)

Если бы у Вас был личный опыт сопровождения (и доработки!) создававшейся по описанным принципам системы. Да так, чтобы за результат спрашивали с Вас. Вы бы не задавали этого вопроса.

А вот оно, что. Не сразу понял. Да я тоже из этой области и если речь, касается, лично меня - то будет очень много мата и эмоций по поводу таких решений, а их реально много - вспомнить пропихивание Михалковым акциза на CD и прочие защиты авторства и персональных данных, и это не считая прикладных, вещей как электронный документооборот в больницах и прочих Платонов =)

Но Вы же понимаете, что это личное. 

С точки зрения государства - был один руководитель - мы все его знаем, который слушал специалистов, но он умер в 1953 г.

Помните как века не прошло, и антисемитизьм из респектабельного (и обоснованного) общественного движения превратили в главный смертный грех современности (что приобретает особенную пикантность на фоне главного преступления Союза)?

Нас могут побить (в том числе и здесь) за такие разговоры.

Аватар пользователя И-23
И-23(8 лет 6 месяцев)

По поводу сбора имени г-на мигалкова тут проблема в Системе западнизма.
Устрани главную фичу (сугубую убыточность процесса восстановления справедливости), пара исков по false positives — и нет мигалкова. Удовлетворение справедливых требований трети заинтересованных — и проблема единомышленников закрыта на обозримую историческую перспективу.

С точки зрения государства Вы сильно ошибаетесь. Посчитайте Ивана Грозного. Т.е. как минимум три. ☺
Причём во всех трёх случаях по крайней мере одна _необходимая_ (!) задача не была решена. ☹

ЗЫ: Про «побить» решается тоже достаточно просто. Идентификацией исполнителей, фиксацией и оказанием в качестве разминки помощи в публичном чтении тематического сборника статей Ивана Аксакова.
После чего можно переходить к основной части программы в виде публичных чтений исследования Якова Александровича в редакции (как минимум с комментариями и дополнениями) Александра Яковлевича ☺
Или Вы предполагали упоминание о Главном Преступлении Союза?

Страницы