Информация об изменениях

Сообщение Re[18]: Как написать редактор текстов на C#? от 30.11.2022 8:36

Изменено 30.11.2022 10:14 Эйнсток Файр

Re[18]: Как написать редактор текстов на C#?
ЭФ>> Вы просто не любите русских и стремитесь уничтожить наше духовное наследие.
S> А вот хамить не надо.

Живя в России
Вы уважаете требования мусульман,
чтобы их арабские буквы из Корана корректно рендерились в составе слова и вне его,
а про православные книги, по-Вашему требования не было.

Ну и кто Вы после этого?

S> Вы впервые упоминаете про необходимость работать с текстами церковных книг. Есть такая необходимость — ок, будем поддерживать три вида комбинирующих символов. Нет необходимости — не будем.


Почему у меня такое требование возникло, а у Вас такого требования не было? При том, что я атеист...

S> Зачем вам код, угадывающий букву ё?


Затем, что если правила языка есть, то они должны быть автоматизированы.
Очевидное же требование?
Греф отчитывается, что у него огромные нейросети на самом мощном суперкомпьютере Европы,
и что его специалисты построили самую полную модель русского языка,
а мы стесняемся какую-то "ё" детектировать...

В конце концов, пусть редактор размечает, где неопределённости, если сам определить не может.
И различает уже проверенные и ещё непроверенные места (запоминает принятые решения).

Интересно, есть ли в Unicode такой код, который затирает ранее приписанные умляуты?

Что-нибудь типа такого:
https://www.compart.com/en/unicode/U+007F
(не работает у меня в firefox)
или такого:
https://www.compart.com/en/unicode/U+2421
(этот именно буковки по диагонали рисует, тоже не годится)

То есть:
1) буква "ё" — кодируется в байты как есть;
2) буква "ё", записанная как "е" — это "е" + умляут + CGJ + DEL;
или, можно даже "е" + CGJ + умляут + ZWJ + DEL
3) буква "е", записанная как "е" + какой-нибудь символ уверенности, это определённо именно "е";
можно, например, использовать "е" + CGJ + "неразрывный пробел" + ZWJ + DEL;
4) буква "е" без ничего — это неразрешённая неопределённость.

Combining Grapheme Joiner (CGJ) = U+034F


Zero Width Joiner (ZWJ) = U+200D , pronounced "zwidge", is a Unicode character that joins two or more other characters together in sequence to create a new emoji


В общем, Unicode не готов к русскому языку.
Re[18]: Как написать редактор текстов на C#?
ЭФ>> Вы просто не любите русских и стремитесь уничтожить наше духовное наследие.
S> А вот хамить не надо.

Живя в России
Вы уважаете требования мусульман,
чтобы их арабские буквы из Корана корректно рендерились в составе слова и вне его,
а про православные книги, по-Вашему требования не было.

Ну и кто Вы после этого?

S> Вы впервые упоминаете про необходимость работать с текстами церковных книг. Есть такая необходимость — ок, будем поддерживать три вида комбинирующих символов. Нет необходимости — не будем.


Почему у меня такое требование возникло, а у Вас такого требования не было? При том, что я атеист...

S> Зачем вам код, угадывающий букву ё?


Затем, что если правила языка есть, то они должны быть автоматизированы.
Очевидное же требование?
Греф отчитывается, что у него огромные нейросети на самом мощном суперкомпьютере Европы,
и что его специалисты построили самую полную модель русского языка,
а мы стесняемся какую-то "ё" детектировать...

В конце концов, пусть редактор размечает, где неопределённости, если сам определить не может.
И различает уже проверенные и ещё непроверенные места (запоминает принятые решения).

Интересно, есть ли в Unicode такой код, который затирает ранее приписанные умляуты?

Что-нибудь типа такого:
https://www.compart.com/en/unicode/U+007F
(не работает у меня в firefox)
или такого:
https://www.compart.com/en/unicode/U+2421
(этот именно буковки по диагонали рисует, тоже не годится)

То есть:
1) буква "ё" — кодируется в байты как есть;
2) буква "ё", записанная как "е" — это "е" + умляут + CGJ + DEL;
или, можно даже "е" + CGJ + умляут + ZWJ + DEL
3) буква "е", записанная как "е" + какой-нибудь символ уверенности, это определённо именно "е";
можно, например, использовать "е" + CGJ + "неразрывный пробел" + ZWJ + DEL;
4) буква "е" без ничего — это неразрешённая неопределённость.

Или можно не DEL, а BACKSPACE =U+0008 (тоже не рендерится по-моему).

Combining Grapheme Joiner (CGJ) = U+034F


Zero Width Joiner (ZWJ) = U+200D , pronounced "zwidge", is a Unicode character that joins two or more other characters together in sequence to create a new emoji


В общем, Unicode не готов к русскому языку.