Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: _ilya_  
Дата: 15.04.26 22:46
Оценка: :)
Уже давно есть и jpeg и mp3 и т.д.

Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

Огромный коэффициент сжатия у LLM хотя и с потерями, но был без особых проблем для среднего человека, но данные даже так не сжимают в LLM.

Сжатие смысловых векторов пока не придумано и википедию в LLM не погрузили без ошибок, хотя размеры данных раз в 7 больше имеются. ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.

Даже теле-ящик перевели в цифру и сжали в 100:1 и работает скорее качественнее ибо цифра. Примерно так и LLM работают.
LLM как то неадекватно сжимают, т.е. там алгоритмы зачаточного уровня. Не могут даже википедию английскую (полная но без картинок менее 100ГБ) даже без багов запихнуть в DeepSeek который под 700ГБ и уж точно вместил все википедии без потерь. Но он "сжатый" и по "смыслу". "Сжатие" переместилось в смысловые термины, в которых якобы ИИ, а на деле вообще не обладающие никаким интеллектом LLM переводят одно в другое — из языков/картинок/видео в любой другой язык/модифицированные картинки/другое видео. Но это языковые модели-переводчики и отлично справляются почти везде, но интеллектом у переводчика не пахнет.

Вообщем клевое сжатие с потерями + естественно очень быстрый поиск среди такого (векторное по смыслу) это будет Go0gle 2.0 Неизвестно кто победит, но все борются и уже сотни миллиардов (необеспеченных фантиков в будущем) поставлены на кон. Вся борьба антинаучна — запихивание экзабайт в автомат который лишь может предсказывать с какой-то вероятностью следующее слово, это ни разу не интеллект.
Запихнуть все википедии + все книги без особых потерь было бы интересней, на сколько весят все знания человечества в сжатом виде и что никакой человек не увидит потерь...

P.S. Надеюсь что все же попробуют создать именно ИИ — и это будет отдельная штука, не очень большого объема и ресурсов вначале но сильно умнее текущих и банки знаний — на несколько сотен Гигабайт или Терабайт это будут вообще отдельные подключаемые сервисы. Здравомыслие точно разделимо на мыслительную деятельность и на запомненные знания и это разное.
Отредактировано 15.04.2026 23:06 _ilya_ . Предыдущая версия . Еще …
Отредактировано 15.04.2026 23:00 _ilya_ . Предыдущая версия .
Отредактировано 15.04.2026 22:54 _ilya_ . Предыдущая версия .
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Эйнсток Файр Мухосранск Странный реагент
Дата: 16.04.26 00:15
Оценка:
> LLM ... алгоритмы зачаточного уровня

Так или иначе, выкатили их иностранные учёные.
Можешь легко поставить их на место, если запустишь более умные сервисы.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 16.04.26 06:46
Оценка:
Здравствуйте, _ilya_, Вы писали:

__>LLM как то неадекватно сжимают, т.е. там алгоритмы зачаточного уровня.


Наверное, LLM не разрабатывали для сжатия. Для сжатия автоэнкодеры существуют, ни их основе кодеки делают. У тебя будет обучаться сразу и энкодер, и декодер. На какой-нибудь видеокамере реализован только энкодер, которому на вход поступают данные, он их преобразует и отдаёт по сети. Далее у пользователя есть декодер этого автоэнкодера, который разжимает данные. Например, VideoMost. Такие кодеки не распространены, потому что требуют нейроускорителя для аппаратного ускорения.

Что-то подобное можно найти и в LLM, но она же состоит не только из энкодера. Да, там есть и текстовый энкодер, и картиночный, но при обучении никто не оптимизирует минимальный размер состояния. Оптимизируют больше способность к обобщению, которая коррелирует с сокращением объёма информации, но не эквивалентна ему.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 16.04.26 06:53
Оценка:
Здравствуйте, _ilya_, Вы писали:

__>Даже в deepseek 700GB не запихнули...


Сам Deepseek — это не сжатые данные, а "программа" для их и компрессии, и декомпрессии, и интерпретации. Это всё равно, как если бы ты вместо с rar архивом носил с собой и весь WinRAR, и учитывал его размер, как размер архива.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 16.04.26 08:28
Оценка:
Здравствуйте, _ilya_, Вы писали:

__>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.


С каких пор википедия стала эталоном истины?
Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: alpha21264 СССР  
Дата: 16.04.26 10:19
Оценка: :)
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, _ilya_, Вы писали:


__>>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.


ЕМ>С каких пор википедия стала эталоном истины?


Ни с каких. В данном случае имеется в виду, что LLM должна выдать ответ, соответствующий (или не противоречащий) Википедии.

Течёт вода Кубань-реки куда велят большевики.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на
От: D. Mon Великобритания http://thedeemon.livejournal.com
Дата: 16.04.26 15:16
Оценка:
Здравствуйте, _ilya_, Вы писали:

__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.


100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.

Вот я сейчас скачал открытую модель gemma4 26b — всего 17 GB размером! — и она мне локально на лэптопе на разных языках легко отвечает на энциклопедические вопросы:
скриншот
При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.

__>Сжатие смысловых векторов пока не придумано


Придумано и не раз, см. например недавний TurboQuant. Вроде в той же Gemma4 он использован.
Отредактировано 16.04.2026 16:06 D. Mon . Предыдущая версия .
Re[3]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.04.26 11:23
Оценка: +1
Здравствуйте, alpha21264, Вы писали:

A>имеется в виду, что LLM должна выдать ответ, соответствующий (или не противоречащий) Википедии.


С чего вдруг?
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Shmj Ниоткуда  
Дата: 19.04.26 21:05
Оценка:
Здравствуйте, _ilya_, Вы писали:

__>Запихнуть все википедии + все книги без особых потерь было бы интересней, на сколько весят все знания человечества в сжатом виде и что никакой человек не увидит потерь...


Так же и все фильмы можно — перевести в текстовый вид, а потом генерить на лету по тексту. Каждый раз генерация будет немножко другой, но без потери смысла. Так даже интереснее.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: MaximVK Россия  
Дата: 19.04.26 21:50
Оценка:
Здравствуйте, _ilya_, Вы писали:

Я, наверное, не очень тебя понял.

LLM — это большая аппроксимация распределений в языке с учетом контекста. Ее цель — это уметь продолжить текст, на это ее и обучают, а не как можно точное восстановление исходного документа. Второго можно добиться с помощью всяких RAG, tools и внешней памяти, где можно применить все современные технологии для сжатия документов.
Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: graniar  
Дата: 19.04.26 23:44
Оценка:
Здравствуйте, MaximVK, Вы писали:

MVK>LLM — это большая аппроксимация распределений в языке с учетом контекста. Ее цель — это уметь продолжить текст, на это ее и обучают, а не как можно точное восстановление исходного документа. Второго можно добиться с помощью всяких RAG, tools и внешней памяти, где можно применить все современные технологии для сжатия документов.


Ну это в каком-то смысле сжатие данных всей обучающей выборки.
Для архиватора можно обучать нейросетку на одном только сжимаемом файле. Дообучать до состояния, когда сможет воспроизводить с необходимой точностью.
А матрица весов нейросети и будет сархивированным вариантом.
Другое дело, что стоимость такой архивации получается запредельной
Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: koenig  
Дата: 20.04.26 02:21
Оценка: :)
__>>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
ЕМ>С каких пор википедия стала эталоном истины?

с тех пор как обучение нейросетей стало давать заметный выхлоп

все обучатели её в этом качестве используют
Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на
От: koenig  
Дата: 20.04.26 02:29
Оценка:
DM>При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.

смотря что иметь ввиду под небольшой
у меня слабый ноут, я гонял маленькие модели
программировать они не могут. за любую задачу берутся смело, а по факту из 10+ перепробованных только одна может пару строчек поправить, а уж что-то большее заставляет любую фонтанировать случайным кодом
то что ты взял — это прямо нижняя граница, дальше уже просто мрак
разница с моделями, которые доступны для чата в инете просто космическая

по ощущениям у моделей сейчас что-то типа поздних 80х у компов — разброс возможностей огромен
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: koenig  
Дата: 20.04.26 02:31
Оценка:
__>ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.

__>P.S. Надеюсь что все же попробуют создать именно ИИ


в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.
Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Sinclair Россия https://github.com/evilguest/
Дата: 20.04.26 05:19
Оценка: +1
Здравствуйте, koenig, Вы писали:
K>в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.
По этой дороге можно ходить в обе стороны. В том смысле, что практические результаты в деле создания ИИ начинают подпитывать субстрат, на котором растут гипотезы о работе естественного интеллекта.
Предположениям о том, что язык и мышление связаны, больше сотни лет. Но только теперь мы получили в дополнение к умозрительным рассуждениям на эту тему результаты практических экспериментов.
Удивительно как раз то, что штука, спроектированная для "эмуляции человекоподобных разговоров", демонстрирует поведение, трудноотличимое от "настоящего мышления".
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[3]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ"
От: koenig  
Дата: 20.04.26 05:49
Оценка: +2
K>>в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.
S>По этой дороге можно ходить в обе стороны. В том смысле, что практические результаты в деле создания ИИ начинают подпитывать субстрат, на котором растут гипотезы о работе естественного интеллекта.
S>Предположениям о том, что язык и мышление связаны, больше сотни лет. Но только теперь мы получили в дополнение к умозрительным рассуждениям на эту тему результаты практических экспериментов.
S>Удивительно как раз то, что штука, спроектированная для "эмуляции человекоподобных разговоров", демонстрирует поведение, трудноотличимое от "настоящего мышления".

в свою защиту — меня рассуждения о том, что естественный интеллект как-то качественно отличается напрягают не потому что искусственный подозрительно похож, а потому что любим мы про естественный фантазировать, безотносительно искусственного. пишем тут "искусственный врет и галлюцинирует, до настоящего ему далеко", а потом идем в политику и ругаем оппонентов за то что они врут и галлюцинируют. я это воспринимаю не как "вот как искусственный ловко повторил", а как "в силу соц. норм мы привыкли про естественный воображать то, чем он и близко не является"
Отредактировано 20.04.2026 5:51 koenig . Предыдущая версия .
Re[4]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ"
От: Sinclair Россия https://github.com/evilguest/
Дата: 20.04.26 07:02
Оценка: +2
Здравствуйте, koenig, Вы писали:

K>в свою защиту — меня рассуждения о том, что естественный интеллект как-то качественно отличается напрягают не потому что искусственный подозрительно похож, а потому что любим мы про естественный фантазировать, безотносительно искусственного. пишем тут "искусственный врет и галлюцинирует, до настоящего ему далеко", а потом идем в политику и ругаем оппонентов за то что они врут и галлюцинируют. я это воспринимаю не как "вот как искусственный ловко повторил", а как "в силу соц. норм мы привыкли про естественный воображать то, чем он и близко не является"


Имхо, тут дело не в соц. нормах, а в тенденции некоторых отдельных людей исходить из неявного предположения о сакральности естественного интеллекта.
Не всем комфортно жить в парадигме "я всего лишь изощрённый автомат", непременно хочется быть подобием божьим с бессмертной душой и свободой воли.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[3]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 20.04.26 08:46
Оценка:
Здравствуйте, koenig, Вы писали:

ЕМ>>С каких пор википедия стала эталоном истины?


K>с тех пор как обучение нейросетей стало давать заметный выхлоп

K>все обучатели её в этом качестве используют

Предлагаете это всячески поддерживать, дабы ИИ усугублял все косяки ВП, которые и без него утомляют?
Re[4]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: koenig  
Дата: 20.04.26 09:35
Оценка:
ЕМ>>>С каких пор википедия стала эталоном истины?
K>>с тех пор как обучение нейросетей стало давать заметный выхлоп
K>>все обучатели её в этом качестве используют
ЕМ>Предлагаете это всячески поддерживать, дабы ИИ усугублял все косяки ВП, которые и без него утомляют?

у меня нет никакого влияния на эти компании, так что как-то поддерживать это я не могу
я бы мог на это повлиять если бы нашел источник получше — они бы с радостью переключились на него
но я такого источника не знаю. обычные энциклопедии сильно уступают по объему и актуальности, а политически мотивированной цензуре подвержены ничуть не меньше.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Pauel Беларусь http://blogs.rsdn.org/ikemefula
Дата: 20.04.26 15:12
Оценка:
Здравствуйте, _ilya_, Вы писали:

__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.


уже нашлось много способов ужать модель в размере без потери точности
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.