Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом - Образование и наука

Уже давно есть и jpeg и mp3 и т.д.

Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

Огромный коэффициент сжатия у LLM хотя и с потерями, но был без особых проблем для среднего человека, но данные даже так не сжимают в LLM.

Сжатие смысловых векторов пока не придумано и википедию в LLM не погрузили без ошибок, хотя размеры данных раз в 7 больше имеются. ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.

Даже теле-ящик перевели в цифру и сжали в 100:1 и работает скорее качественнее ибо цифра. Примерно так и LLM работают.
LLM как то неадекватно сжимают, т.е. там алгоритмы зачаточного уровня. Не могут даже википедию английскую (полная но без картинок менее 100ГБ) даже без багов запихнуть в DeepSeek который под 700ГБ и уж точно вместил все википедии без потерь. Но он "сжатый" и по "смыслу". "Сжатие" переместилось в смысловые термины, в которых якобы ИИ, а на деле вообще не обладающие никаким интеллектом LLM переводят одно в другое — из языков/картинок/видео в любой другой язык/модифицированные картинки/другое видео. Но это языковые модели-переводчики и отлично справляются почти везде, но интеллектом у переводчика не пахнет.

Вообщем клевое сжатие с потерями + естественно очень быстрый поиск среди такого (векторное по смыслу) это будет Go0gle 2.0 Неизвестно кто победит, но все борются и уже сотни миллиардов (необеспеченных фантиков в будущем) поставлены на кон. Вся борьба антинаучна — запихивание экзабайт в автомат который лишь может предсказывать с какой-то вероятностью следующее слово, это ни разу не интеллект.
Запихнуть все википедии + все книги без особых потерь было бы интересней, на сколько весят все знания человечества в сжатом виде и что никакой человек не увидит потерь...

P.S. Надеюсь что все же попробуют создать именно ИИ — и это будет отдельная штука, не очень большого объема и ресурсов вначале но сильно умнее текущих и банки знаний — на несколько сотен Гигабайт или Терабайт это будут вообще отдельные подключаемые сервисы. Здравомыслие точно разделимо на мыслительную деятельность и на запомненные знания и это разное.

> LLM ... алгоритмы зачаточного уровня

Так или иначе, выкатили их иностранные учёные.
Можешь легко поставить их на место, если запустишь более умные сервисы.

Здравствуйте, _ilya_, Вы писали:

__>LLM как то неадекватно сжимают, т.е. там алгоритмы зачаточного уровня.

Наверное, LLM не разрабатывали для сжатия. Для сжатия автоэнкодеры существуют, ни их основе кодеки делают. У тебя будет обучаться сразу и энкодер, и декодер. На какой-нибудь видеокамере реализован только энкодер, которому на вход поступают данные, он их преобразует и отдаёт по сети. Далее у пользователя есть декодер этого автоэнкодера, который разжимает данные. Например, VideoMost. Такие кодеки не распространены, потому что требуют нейроускорителя для аппаратного ускорения.

Что-то подобное можно найти и в LLM, но она же состоит не только из энкодера. Да, там есть и текстовый энкодер, и картиночный, но при обучении никто не оптимизирует минимальный размер состояния. Оптимизируют больше способность к обобщению, которая коррелирует с сокращением объёма информации, но не эквивалентна ему.

Здравствуйте, _ilya_, Вы писали:

__>Даже в deepseek 700GB не запихнули...

Сам Deepseek — это не сжатые данные, а "программа" для их и компрессии, и декомпрессии, и интерпретации. Это всё равно, как если бы ты вместо с rar архивом носил с собой и весь WinRAR, и учитывал его размер, как размер архива.

Здравствуйте, _ilya_, Вы писали:

__>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

С каких пор википедия стала эталоном истины?

Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, _ilya_, Вы писали:

__>>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

ЕМ>С каких пор википедия стала эталоном истины?

Ни с каких. В данном случае имеется в виду, что LLM должна выдать ответ, соответствующий (или не противоречащий) Википедии.

Здравствуйте, _ilya_, Вы писали:

__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.

Вот я сейчас скачал открытую модель gemma4 26b — всего 17 GB размером! — и она мне локально на лэптопе на разных языках легко отвечает на энциклопедические вопросы:
скриншот
При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.

__>Сжатие смысловых векторов пока не придумано

Придумано и не раз, см. например недавний TurboQuant. Вроде в той же Gemma4 он использован.

Здравствуйте, alpha21264, Вы писали:

A>имеется в виду, что LLM должна выдать ответ, соответствующий (или не противоречащий) Википедии.

С чего вдруг?

Здравствуйте, _ilya_, Вы писали:

__>Запихнуть все википедии + все книги без особых потерь было бы интересней, на сколько весят все знания человечества в сжатом виде и что никакой человек не увидит потерь...

Так же и все фильмы можно — перевести в текстовый вид, а потом генерить на лету по тексту. Каждый раз генерация будет немножко другой, но без потери смысла. Так даже интереснее.

Здравствуйте, _ilya_, Вы писали:

Я, наверное, не очень тебя понял.

LLM — это большая аппроксимация распределений в языке с учетом контекста. Ее цель — это уметь продолжить текст, на это ее и обучают, а не как можно точное восстановление исходного документа. Второго можно добиться с помощью всяких RAG, tools и внешней памяти, где можно применить все современные технологии для сжатия документов.

Здравствуйте, MaximVK, Вы писали:

MVK>LLM — это большая аппроксимация распределений в языке с учетом контекста. Ее цель — это уметь продолжить текст, на это ее и обучают, а не как можно точное восстановление исходного документа. Второго можно добиться с помощью всяких RAG, tools и внешней памяти, где можно применить все современные технологии для сжатия документов.

Ну это в каком-то смысле сжатие данных всей обучающей выборки.
Для архиватора можно обучать нейросетку на одном только сжимаемом файле. Дообучать до состояния, когда сможет воспроизводить с необходимой точностью.
А матрица весов нейросети и будет сархивированным вариантом.
Другое дело, что стоимость такой архивации получается запредельной

__>>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
ЕМ>С каких пор википедия стала эталоном истины?

с тех пор как обучение нейросетей стало давать заметный выхлоп

все обучатели её в этом качестве используют

DM>При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.

смотря что иметь ввиду под небольшой
у меня слабый ноут, я гонял маленькие модели
программировать они не могут. за любую задачу берутся смело, а по факту из 10+ перепробованных только одна может пару строчек поправить, а уж что-то большее заставляет любую фонтанировать случайным кодом
то что ты взял — это прямо нижняя граница, дальше уже просто мрак
разница с моделями, которые доступны для чата в инете просто космическая

по ощущениям у моделей сейчас что-то типа поздних 80х у компов — разброс возможностей огромен

__>ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.

__>P.S. Надеюсь что все же попробуют создать именно ИИ

в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.

Здравствуйте, koenig, Вы писали:
K>в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.
По этой дороге можно ходить в обе стороны. В том смысле, что практические результаты в деле создания ИИ начинают подпитывать субстрат, на котором растут гипотезы о работе естественного интеллекта.
Предположениям о том, что язык и мышление связаны, больше сотни лет. Но только теперь мы получили в дополнение к умозрительным рассуждениям на эту тему результаты практических экспериментов.
Удивительно как раз то, что штука, спроектированная для "эмуляции человекоподобных разговоров", демонстрирует поведение, трудноотличимое от "настоящего мышления".

K>>в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.
S>По этой дороге можно ходить в обе стороны. В том смысле, что практические результаты в деле создания ИИ начинают подпитывать субстрат, на котором растут гипотезы о работе естественного интеллекта.
S>Предположениям о том, что язык и мышление связаны, больше сотни лет. Но только теперь мы получили в дополнение к умозрительным рассуждениям на эту тему результаты практических экспериментов.
S>Удивительно как раз то, что штука, спроектированная для "эмуляции человекоподобных разговоров", демонстрирует поведение, трудноотличимое от "настоящего мышления".

в свою защиту — меня рассуждения о том, что естественный интеллект как-то качественно отличается напрягают не потому что искусственный подозрительно похож, а потому что любим мы про естественный фантазировать, безотносительно искусственного. пишем тут "искусственный врет и галлюцинирует, до настоящего ему далеко", а потом идем в политику и ругаем оппонентов за то что они врут и галлюцинируют. я это воспринимаю не как "вот как искусственный ловко повторил", а как "в силу соц. норм мы привыкли про естественный воображать то, чем он и близко не является"

Здравствуйте, koenig, Вы писали:

K>в свою защиту — меня рассуждения о том, что естественный интеллект как-то качественно отличается напрягают не потому что искусственный подозрительно похож, а потому что любим мы про естественный фантазировать, безотносительно искусственного. пишем тут "искусственный врет и галлюцинирует, до настоящего ему далеко", а потом идем в политику и ругаем оппонентов за то что они врут и галлюцинируют. я это воспринимаю не как "вот как искусственный ловко повторил", а как "в силу соц. норм мы привыкли про естественный воображать то, чем он и близко не является"

Имхо, тут дело не в соц. нормах, а в тенденции некоторых отдельных людей исходить из неявного предположения о сакральности естественного интеллекта.
Не всем комфортно жить в парадигме "я всего лишь изощрённый автомат", непременно хочется быть подобием божьим с бессмертной душой и свободой воли.

Здравствуйте, koenig, Вы писали:

ЕМ>>С каких пор википедия стала эталоном истины?

K>с тех пор как обучение нейросетей стало давать заметный выхлоп
K>все обучатели её в этом качестве используют

Предлагаете это всячески поддерживать, дабы ИИ усугублял все косяки ВП, которые и без него утомляют?

ЕМ>>>С каких пор википедия стала эталоном истины?
K>>с тех пор как обучение нейросетей стало давать заметный выхлоп
K>>все обучатели её в этом качестве используют
ЕМ>Предлагаете это всячески поддерживать, дабы ИИ усугублял все косяки ВП, которые и без него утомляют?

у меня нет никакого влияния на эти компании, так что как-то поддерживать это я не могу
я бы мог на это повлиять если бы нашел источник получше — они бы с радостью переключились на него
но я такого источника не знаю. обычные энциклопедии сильно уступают по объему и актуальности, а политически мотивированной цензуре подвержены ничуть не меньше.

Здравствуйте, Nuzhny, Вы писали:

N> Оптимизируют больше способность к обобщению, которая коррелирует с сокращением объёма информации, но не эквивалентна ему.
Вероятно такое само получается, так как запихивают чрезвычайно огромный объем данных, он без потерь никаким кодеком не сожмется до размера LLM. Настраиваются веса при обучении, т.е. получается что подгоняют под минимальные потери при сжатии.

Здравствуйте, D. Mon, Вы писали:

DM>100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.

Сжатие — векторное и смысловое. Понятия на разных языках скорее слабо расходятся, поэтому хранится 1 вектор смысловой (вне зависимости от языка) и далее куча инфы про это. И поэтому там хоть на 100 языков будет перевод, который особо не занимает места, лишь скорее словарь и соответствие вектору для каждого языка, это вообще мегабайты для каждого языка, т.е. ничто.

Здравствуйте, _ilya_, Вы писали:

__>Сжатие смысловых векторов пока не придумано и википедию в LLM не погрузили без ошибок, хотя размеры данных раз в 7 больше имеются. ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.

Кстати, вспомнил, что большой специалист по сжатию Fabrice Bellard как раз этим и занимался:

In April 2021, his artificial neural network–based data compressor, NNCP, took first place out of hundreds in the Large Text Compression Benchmark.[18] The compressor uses Bellard's own artificial neural network library, LibNC ("C Library for Tensor Manipulation"), which is publicly available.

In August 2023, Bellard released ts_zip, a lossless text compressor using a large language model. He updated it in March 2024, making the algorithm considerably faster as well as hardware-independent.

In April 2024, Bellard released TSAC, an audio compression utility that can achieve very low bitrates of 5.5kbit/s (mono) or 7.5kbit/s (stereo) while still preserving reasonable audio quality at 44.1 kHz.

И его нейросетевой кодек ts_zip победил в соревновании по сжатию Википедии.

	От:	_ilya_
	Дата:	15.04.26 22:46
	Оценка:

От:	Эйнсток Файр	Странный реагент
Дата:	16.04.26 00:15
Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	16.04.26 06:46
Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	16.04.26 06:53
Оценка:

От:	Евгений Музыченко	https://software.muzychenko.net/ru
Дата:	16.04.26 08:28
Оценка:

От:	D. Mon	http://thedeemon.livejournal.com
Дата:	16.04.26 15:16
Оценка:

От:	Sinclair	https://github.com/evilguest/
Дата:	20.04.26 05:19
Оценка:	+1

От:	Pauel	http://blogs.rsdn.org/ikemefula
Дата:	20.04.26 15:12
Оценка:

	От:	Shmj
	Дата:	19.04.26 21:05
	Оценка:

	От:	MaximVK
	Дата:	19.04.26 21:50
	Оценка:

	От:	graniar
	Дата:	19.04.26 23:44
	Оценка: