Re[4]: покритикуйте идею
От: Pavel Dvorkin Россия  
Дата: 25.06.08 07:12
Оценка:
Здравствуйте, Lloyd, Вы писали:

L>Здравствуйте, Pavel Dvorkin, Вы писали:


L>А ты проверь. Фактически то, что делаешь ты приводит к тому, что в тексте уменьгается кол-во повторяющихся блоков больщой длины. Такой текст архивировать должно быть сложнее.

L>Так вполне может оказаться, что результат работы gzip-а над исходным текстом будет лцчше, если этот текст предварительно обработать твоим алгоритмом.

Может, ты и прав. Проверять надо.

И все же — можешь ответить на мое доведение до абсурда вот здесь ?

http://rsdn.ru/forum/message/2999825.1.aspx
Автор: Pavel Dvorkin
Дата: 25.06.08
.
With best regards
Pavel Dvorkin
Re: Попробуй написать плагин для смартфона.
От: Erop Россия  
Дата: 25.06.08 07:14
Оценка: +1
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>Жду комментариев.

1) Нифига не ждёшь. Тебе дело говорят и на литературу ссылаются, а ты в ответ гонишь.
2) IMHO такой подход мог бы быть эффективен в чём-то вроде SMS, только мало кто, кроме маньячных пользователей, заинтересован экономить SMS трафик. Так что можно попробовать написать плагинчик для смартфонов, который эксплуатирует такие идеи. Может и пригодиться идея... Правда она не нова. Даже моя, с плагинчиком к телефончикам тоже, AFAIK, не нова...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re[3]: Кодирование слов при передаче по сети (покритикуйте и
От: R.K. Украина  
Дата: 25.06.08 07:18
Оценка:
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>Здравствуйте, D. Mon, Вы писали:


DM>>Здравствуйте, Pavel Dvorkin.


DM>>Вашу идею активно развивали еще в 1986 году (см. A locally adaptive data compression scheme — Bentley, Sleator et al. — 1986).

DM>>Кучу работ можете найти по ключевым словам Word-Based Text Compression.
DM>>А в оригинальном виде она наверняка была описана еще во времена римской империи.

PD>Не сомневаюсь. Но вот реализаций не вижу.


Реализации есть. Можно даже про идею статического препроцессинга (так называется исходная идея) почитать на русском здесь (882К) Глава 7. Предварительная обработка данных
You aren't expected to absorb this
Re[4]: Кодирование слов при передаче по сети (покритикуйте и
От: Pavel Dvorkin Россия  
Дата: 25.06.08 07:19
Оценка:
Здравствуйте, Erop, Вы писали:

E>Здравствуйте, Pavel Dvorkin, Вы писали:


PD>>Хм, а как же с потерями ? Это же не картинка, где если в одном пикселе вместо истинного RGB(100,134,156) будет RGB(100,135,156) — никто и не заметит. Текст должен воспроизводиться точно.


E>Например, при сжатии, можно исправлять орфографические ошибки...


Черт знает. Так и до полного искажения смысла недалеко. Если встречаем неопознанное слово, то его надо на что-то заменить. Хорошо, как правильно, а ну как нет ? Ты же фактически автоматическое исправление ошибок предлагаешь
With best regards
Pavel Dvorkin
Re[4]: Да просто попробуй её реализовать!
От: Pavel Dvorkin Россия  
Дата: 25.06.08 07:24
Оценка:
Здравствуйте, Erop, Вы писали:

E>Здравствуйте, Pavel Dvorkin, Вы писали:


PD>>P.S. Сжатие данных тут ни при чем. Речь о совсем другом идет. Прочти вот это

PD>>http://rsdn.ru/forum/message/2999825.1.aspx
Автор: Pavel Dvorkin
Дата: 25.06.08

E>1) Ты вроде место в канале передачи экономить хотел? Или что?
E>2) Ты не понимаешь, как и почему устроены естественные языки, например русский.

Это уж точно. А как они устроены, если не секрет ? А главное — почему ? И еще один вопрос добавлю — а все ли одинаково ? И если нет — почему ?


>Поэтому тебе и кажется, что придумал супер-пупер идею.


Да нет, я на такое не претендую. Просто интересно, есть ли тут рациональное зерно. Я же и просил критику изначально.


>Просто попробуй свою идею реализовать и всё поймёшь...


Да, это самое лучшее. Дам кому-нибудь в качестве курсовой

E>Словарь можно скачать из интернета, прямо вот с частотностями. Например качни какой-нибудь большой графоманский сайт, построй по нему словарь и попробуй этот сайт пережать этим словарём. Это будет завышенная оценка эффективности твоей технологии. Ну и сравни с промышленными архиваторами, если тутошнему народу не веришь...


Можно и так.
With best regards
Pavel Dvorkin
Re[5]: Кодирование слов при передаче по сети (покритикуйте и
От: Erop Россия  
Дата: 25.06.08 07:26
Оценка:
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>Черт знает. Так и до полного искажения смысла недалеко. Если встречаем неопознанное слово, то его надо на что-то заменить. Хорошо, как правильно, а ну как нет ? Ты же фактически автоматическое исправление ошибок предлагаешь


Нет, я просто привёл вариант потери информации из исходного текста, которая могла бы быть приемлемой...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re[3]: Кодирование слов при передаче по сети (покритикуйте и
От: Mamut Швеция http://dmitriid.com
Дата: 25.06.08 07:42
Оценка:
M>>Как отличить номер слова от переданной в тексте цифры?

PD>А как отличают в UTF-8 однобайтный символ от двух или трех-байтного ? Примерно так же.


Как же?

вот у нас идет подряд 232, где 2 — это "попытка", 3 — "номер", 2 — "2"
... << RSDN@Home 1.2.0 alpha 4 rev. 1091>>


dmitriid.comGitHubLinkedIn
Re[5]: Да просто попробуй её реализовать!
От: Erop Россия  
Дата: 25.06.08 07:44
Оценка:
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>Это уж точно. А как они устроены, если не секрет ? А главное — почему ? И еще один вопрос добавлю — а все ли одинаково ? И если нет — почему ?


Ну есть естественные механизмы, которые ограничивают степень избыточности языка сверху и снизу. Сверху избыточность ограничивает стремление людей к лаконичности, так как передавать информацию быстро эффективнее, то есть практически выгоднее. Снизу избыточность ограниченна помехоустойчивостью. Так как обычно помехоустойчивость важнее лаконичности. Соотвественно у разных народов немного разная жизнь, поэтому баланс этих двух причин в разных языках был разным и степень избыточности получилась разной. Но всё равно примерно одинаковой. Мало того, избыточность естественных языков имеет несколько другую структуру, чем ты думаешь, так скажем.
Реально кодирование устроено не словами, а более локально. Чем-то вроде слогов/морфем. Во многих языках, кстати, понятия слогов и морфем совпадают. Если говорить о русском, то, можно привести такой пример. Если взять множество встречающихся в русском триграмм (троек букв идущих подряд), и выработать кодирование так, что бы кодировать только триграммные цепочки, при этом без избыточности, то мы уже отожмём значительную часть избыточности русского языка. Именно поэтому локальные на первый взгляд ужималки так эффективны на естественных языках. Естественным языкам слова вообще пофиг обычно, им важны более короткие цепочки, так что твой подход не годится.
Он годился, если бы русский язык состоял из миллиона 6-7 буквенных случайных цепочек байт. Тогда да, твой алгоритм работал бы суперски эффективно. Но у естественных языков совсем другая структура избыточности. И если ты неудачным предварительным преобразованием эту структуру избыточности не испортишь, то хороший современный промышленный архиватор всю эту избыточность почти полностью "отожмёт".
Такая вот беда.

PD>Можно и так.

Удачи! Правда студента жалко
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re: Кодирование слов при передаче по сети (покритикуйте идею
От: AleksandrN Россия  
Дата: 25.06.08 07:45
Оценка: :)
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>А что, если вместо этого пронумеровать слова русского языка и пересылать их номера ? Конечно, для этого на сервере должен быть шифрующий модуль и словарь, а на клиенте — тот же словарь и дешифратор.

PD>Жду комментариев.

В любом тексте большинство слов встречаются не в начальной форме, а в различных падежах, склонениях, времени и т.п., а для корректного кодирования/раскодирования нужно будет это учитывать (например — отдельно кодировать приставку, корень, суффикс, окончание). Кроме того, в Русском языке очень много исключений и есть такие интересные особенности как, как чередующиеся и пропадающие буквы в корне в разных словоформах (например — корни прыг/прыж, глас/голос). Учёт всех особенностей языка сделает этот способ не выгодным, по сравнению с обычными алгоритмами кодирования. Но, возможно, для искусственных языков (таких, как эсперанто) такой способ кодирования будет удобным.
Re[4]: ...о гонах, в смысле подробности не пропускай, да?
От: Mamut Швеция http://dmitriid.com
Дата: 25.06.08 08:03
Оценка:
Здравствуйте, Erop, Вы писали:

E>Здравствуйте, Pavel Dvorkin, Вы писали:


PD>>Читай внимательно исходный постинг. Все слова считаются различными, если они отличаются хоть одной буквой. Формы склонений — различные слова, так что для каждого существительного будет в лексиконе от 1 до 6 слов.


E>гон

E>гона
E>гону
E>гоном
E>гоне
E>гоны
E>гонов
E>гонам
E>гонами
E>гонах

кстати, это в руском все так радужно. а для языков типа турецокго такое не пройдет

ev               дом             evim          мой дом        evimiz   наш дом
                                 evin          твой дом       eviniz   ваш дом 
                                 evi           его/ее дом     evleri   их дом

eve              к дому

evde             в доме          evdeyim       я в доме       evdeyiz   мы в доме
                                 evdesin       ты в доме      evdesiniz вы в доме
                                 evde          он/она в доме  evdeler   они в доме
                                 
evimde           в моем доме     evimdeyim     я в моем доме
                                 evimdesin, evimdeyiz, evimdesiniz, evimdeler
                                 
evinde           в твоем доме    evindeyim     я в твоем доме
                                 evindesin, evindeyiz, evindesiniz, evindeler
и так далее в нашем, вашем, их доме


evler            дома            evlerim       мои дома
                                 evlerim, evleri, evlerimiz, evleriniz
                                 
evlere           к домам        

evlerde          в домах         evlerdeyim, evlerdesin.......
evlerimde        в моих домах    evlerimdeyim, evlerimdesin.........
и так далее для твоих, его, наших, ваших, их домах


evden            из дому         evimden - из моего дома и т.п. evinden, evimizden, evinizden........
evlerden         из домов        evlerimden - из моих домов и т.п. evlerinden.....


или вот такое

evdeydim        я был дома
evdeydin        ты был дома и т.п.

evimdeydim      я был у себя дома и т.п.



а еще есть глаголы в нескольких временах и т.п. и т.д.
... << RSDN@Home 1.2.0 alpha 4 rev. 1091>>


dmitriid.comGitHubLinkedIn
Re[5]: ...о гонах, в смысле подробности не пропускай, да?
От: Erop Россия  
Дата: 25.06.08 08:07
Оценка: +1
Здравствуйте, Mamut, Вы писали:

M>кстати, это в руском все так радужно. а для языков типа турецокго такое не пройдет

...
M>а еще есть глаголы в нескольких временах и т.п. и т.д.

Да ладно, как ты думаешь сколько форм у какого-нибудь заволящего русского глагола?
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re[5]: покритикуйте идею
От: Alex Reyst Россия  
Дата: 25.06.08 08:09
Оценка: +1
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>А насчет архиваторов — да я их и не отменяю. Никто не мешает их применить после.


Смысл?

PD> ИМХО русский язык с формальной точки зрения весьма избыточен.


Смотря что считать "весьма". Естественно, речь обладает избыточностью, иначе о сжатии текста и речи бы не было. Но я говорил о том, что эта избыточность для разных языков более-менее одного порядка, даже если достигается различными способами. Архиватору все равно, достигается ли образование грамматической формы одним суффиксом или тремя — важно, сколько разных грамматических форм встретится в тексте; обозначается родительный падеж аффиксом, увеличивающим длину слова, или предлогом, увеличивающим количество слов. Например, типичный художественный текст на русском языке длиннее соответствующего английского — но за счет большей длины слова, а количество слов при этом в тексте меньше и т.п. Упаковав же эти тексты, мы получим, что русский вариант лишь немного длинее английского, увеличение не будет соответствовать разнице в длине слов.

PD> Надо проверять в натуре.

Ну так за чем дело встало, если на ГЭК больше делать нечего ?
Все, что здесь сказано, может и будет использоваться против меня.
Re[3]: покритикуйте идею
От: midcyber
Дата: 25.06.08 08:29
Оценка: 10 (1) +1
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>Мне кажется, это разные вещи. В русском языке средняя длина слова 6 символов. Это не имеет отношения к информатике, так сложилось по иным причинам. Так что текст длиной в N букв занимает 6N байт (или 12N).


PD>А предстваь себе, что в русском (или ином) языке средняя длина слова — 12 символов. При том же лексиконе. Тогда суммарная длина будет 12N (24N) байт при том. что передается та же информация.


PD>Ты уверен, что gzip сожмет этот массив удвоенной длины до того же размера, что и одинарной длины ? Сомневаюсь.


Ты не забывай, что есть еще такой фактор, как частота употребления букв в языке.
Например, в русском гласные О,Е,А,И представляют собой 33% всех букв в текстах (в среднем)

Кроме того, в языке многие двухбуквенные и трехбуквенные сочетания распространены больше, чем другие (а некоторые вообще не могут встречаться). Причем, это может быть связано с положением в слове (начало/конец, то есть еще в сочетании с пробелом)
Пример — http://urikor.net/rus/PH14.html

Все это только поможет zip при увеличении объема текста
Re[6]: ...о гонах, в смысле подробности не пропускай, да?
От: Mamut Швеция http://dmitriid.com
Дата: 25.06.08 08:40
Оценка:
Здравствуйте, Erop, Вы писали:

E>Здравствуйте, Mamut, Вы писали:


M>>кстати, это в руском все так радужно. а для языков типа турецокго такое не пройдет

E>...
M>>а еще есть глаголы в нескольких временах и т.п. и т.д.

E>Да ладно, как ты думаешь сколько форм у какого-нибудь заволящего русского глагола?


Ну, даже если считать совершенный и несовершенный виды разныими глаголами То тоже наберется порядочно. Но до турецкого далеко Потому что, например:

soylemek — сказать (-mek — это инфинитив)
soyleyecekmissiniz = soyle + (y) + ecek + mis + siniz

вы обещали сказать


... << RSDN@Home 1.2.0 alpha 4 rev. 1091>>


dmitriid.comGitHubLinkedIn
Re[7]: мануал, мануать, мануая мануаенного....
От: Erop Россия  
Дата: 25.06.08 08:43
Оценка:
Здравствуйте, Mamut, Вы писали:

E>>Да ладно, как ты думаешь сколько форм у какого-нибудь заволящего русского глагола?


M>Ну, даже если считать совершенный и несовершенный виды разныими глаголами То тоже наберется порядочно. Но до турецкого далеко Потому что, например:


Это не ответ на вопрос сколько...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re[3]: Кодирование слов при передаче по сети (покритикуйте и
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 25.06.08 08:46
Оценка:
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>Спасибо. Я Huffman_coding рассказывал студентам еще лет 10 так назад на лекциях.


Если честно — не заметно.

PD>А вот одно ты не понял. Хоть Хаффман, хоть LZH — слова исходного текста (в той или иной форме) в сжатом архиве хранятся. А у меня вообще нет.


И это все отличия? Внешний словарь?

PD>Только подумай как следует. А если слова не 12, а 100 байт длину имеют, при том, что различных слов всего 100 тысяч. Тоже сожмешь до того же размера, что и русский текс ?


Да. Хаффман очень примитивный алгоритм, он предполагает "слова" фиксированного размера. Есть алгоритмы, умеющие находить повторяющриеся блоки значительно большей длины.
... <<RSDN@Home 1.2.0 alpha 4 rev. 1090 on Windows Vista 6.0.6001.65536>>
AVK Blog
Re[2]: ответ всем
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 25.06.08 08:46
Оценка: +1
Здравствуйте, Pavel Dvorkin, Вы писали:

PD>Вот и вся идея.


Эта идея, в том или ином виде, лежит в основе почти всех алгоритмов сжатия.
... <<RSDN@Home 1.2.0 alpha 4 rev. 1090 on Windows Vista 6.0.6001.65536>>
AVK Blog
Re[8]: мануал, мануать, мануая мануаенного....
От: Mamut Швеция http://dmitriid.com
Дата: 25.06.08 08:51
Оценка:
E>>>Да ладно, как ты думаешь сколько форм у какого-нибудь заволящего русского глагола?

M>>Ну, даже если считать совершенный и несовершенный виды разныими глаголами То тоже наберется порядочно. Но до турецкого далеко Потому что, например:


E>Это не ответ на вопрос сколько...


Ну, даже если считать совершенный и несовершенный виды разныими глаголами То тоже наберется порядочно.


Сколько точно — хз Если мы будем только формы глагола считать, не ударясь в причастия и деепричастия
... << RSDN@Home 1.2.0 alpha 4 rev. 1091>>


dmitriid.comGitHubLinkedIn
Re: всем спасибо, последний ответ
От: Pavel Dvorkin Россия  
Дата: 25.06.08 08:59
Оценка: :)))
Закончу (со своей стороны) дискуссию вот этим


http://www.beseder.co.il/v-russkom-yazyike-slovosochetaniya-i-frazyi-zamenyayutsya-odnim-slovom

With best regards
Pavel Dvorkin
Re[2]: Читайте также: Копилка бесполезных фактов
От: Erop Россия  
Дата: 25.06.08 09:11
Оценка:
Здравствуйте, Pavel Dvorkin, Вы писали:


PD>http://www.beseder.co.il/v-russkom-yazyike-slovosochetaniya-i-frazyi-zamenyayutsya-odnim-slovom


А говорил, что сжатие текстов с потерями не канает
PD>
Но вообще-то глубина анализа поражает. Правда помнится проскакивало амерское же "исследование" на тему о целях эстетического дизайна советских кораблей и связи этого аспекта с военной доктриной СССР

Особенно меня порадовла средняя длина японского слова в 10,8 символов. Интересно, они в курсе, что в японском иногда иероглифы применяются :)))
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.