Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом - Образование и наука

Уже давно есть и jpeg и mp3 и т.д.

Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

Огромный коэффициент сжатия у LLM хотя и с потерями, но был без особых проблем для среднего человека, но данные даже так не сжимают в LLM.

Сжатие смысловых векторов пока не придумано и википедию в LLM не погрузили без ошибок, хотя размеры данных раз в 7 больше имеются. ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.

Даже теле-ящик перевели в цифру и сжали в 100:1 и работает скорее качественнее ибо цифра. Примерно так и LLM работают.
LLM как то неадекватно сжимают, т.е. там алгоритмы зачаточного уровня. Не могут даже википедию английскую (полная но без картинок менее 100ГБ) даже без багов запихнуть в DeepSeek который под 700ГБ и уж точно вместил все википедии без потерь. Но он "сжатый" и по "смыслу". "Сжатие" переместилось в смысловые термины, в которых якобы ИИ, а на деле вообще не обладающие никаким интеллектом LLM переводят одно в другое — из языков/картинок/видео в любой другой язык/модифицированные картинки/другое видео. Но это языковые модели-переводчики и отлично справляются почти везде, но интеллектом у переводчика не пахнет.

Вообщем клевое сжатие с потерями + естественно очень быстрый поиск среди такого (векторное по смыслу) это будет Go0gle 2.0 Неизвестно кто победит, но все борются и уже сотни миллиардов (необеспеченных фантиков в будущем) поставлены на кон. Вся борьба антинаучна — запихивание экзабайт в автомат который лишь может предсказывать с какой-то вероятностью следующее слово, это ни разу не интеллект.
Запихнуть все википедии + все книги без особых потерь было бы интересней, на сколько весят все знания человечества в сжатом виде и что никакой человек не увидит потерь...

P.S. Надеюсь что все же попробуют создать именно ИИ — и это будет отдельная штука, не очень большого объема и ресурсов вначале но сильно умнее текущих и банки знаний — на несколько сотен Гигабайт или Терабайт это будут вообще отдельные подключаемые сервисы. Здравомыслие точно разделимо на мыслительную деятельность и на запомненные знания и это разное.

> LLM ... алгоритмы зачаточного уровня

Так или иначе, выкатили их иностранные учёные.
Можешь легко поставить их на место, если запустишь более умные сервисы.

Здравствуйте, _ilya_, Вы писали:

__>LLM как то неадекватно сжимают, т.е. там алгоритмы зачаточного уровня.

Наверное, LLM не разрабатывали для сжатия. Для сжатия автоэнкодеры существуют, ни их основе кодеки делают. У тебя будет обучаться сразу и энкодер, и декодер. На какой-нибудь видеокамере реализован только энкодер, которому на вход поступают данные, он их преобразует и отдаёт по сети. Далее у пользователя есть декодер этого автоэнкодера, который разжимает данные. Например, VideoMost. Такие кодеки не распространены, потому что требуют нейроускорителя для аппаратного ускорения.

Что-то подобное можно найти и в LLM, но она же состоит не только из энкодера. Да, там есть и текстовый энкодер, и картиночный, но при обучении никто не оптимизирует минимальный размер состояния. Оптимизируют больше способность к обобщению, которая коррелирует с сокращением объёма информации, но не эквивалентна ему.

Здравствуйте, _ilya_, Вы писали:

__>Даже в deepseek 700GB не запихнули...

Сам Deepseek — это не сжатые данные, а "программа" для их и компрессии, и декомпрессии, и интерпретации. Это всё равно, как если бы ты вместо с rar архивом носил с собой и весь WinRAR, и учитывал его размер, как размер архива.

Здравствуйте, _ilya_, Вы писали:

__>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

С каких пор википедия стала эталоном истины?

Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, _ilya_, Вы писали:

__>>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

ЕМ>С каких пор википедия стала эталоном истины?

Ни с каких. В данном случае имеется в виду, что LLM должна выдать ответ, соответствующий (или не противоречащий) Википедии.

Здравствуйте, _ilya_, Вы писали:

__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.

100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.

Вот я сейчас скачал открытую модель gemma4 26b — всего 17 GB размером! — и она мне локально на лэптопе на разных языках легко отвечает на энциклопедические вопросы:
скриншот
При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.

__>Сжатие смысловых векторов пока не придумано

Придумано и не раз, см. например недавний TurboQuant. Вроде в той же Gemma4 он использован.

Здравствуйте, alpha21264, Вы писали:

A>имеется в виду, что LLM должна выдать ответ, соответствующий (или не противоречащий) Википедии.

С чего вдруг?

Здравствуйте, _ilya_, Вы писали:

__>Запихнуть все википедии + все книги без особых потерь было бы интересней, на сколько весят все знания человечества в сжатом виде и что никакой человек не увидит потерь...

Так же и все фильмы можно — перевести в текстовый вид, а потом генерить на лету по тексту. Каждый раз генерация будет немножко другой, но без потери смысла. Так даже интереснее.

Здравствуйте, _ilya_, Вы писали:

Я, наверное, не очень тебя понял.

LLM — это большая аппроксимация распределений в языке с учетом контекста. Ее цель — это уметь продолжить текст, на это ее и обучают, а не как можно точное восстановление исходного документа. Второго можно добиться с помощью всяких RAG, tools и внешней памяти, где можно применить все современные технологии для сжатия документов.

Здравствуйте, MaximVK, Вы писали:

MVK>LLM — это большая аппроксимация распределений в языке с учетом контекста. Ее цель — это уметь продолжить текст, на это ее и обучают, а не как можно точное восстановление исходного документа. Второго можно добиться с помощью всяких RAG, tools и внешней памяти, где можно применить все современные технологии для сжатия документов.

Ну это в каком-то смысле сжатие данных всей обучающей выборки.
Для архиватора можно обучать нейросетку на одном только сжимаемом файле. Дообучать до состояния, когда сможет воспроизводить с необходимой точностью.
А матрица весов нейросети и будет сархивированным вариантом.
Другое дело, что стоимость такой архивации получается запредельной

__>>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
ЕМ>С каких пор википедия стала эталоном истины?

с тех пор как обучение нейросетей стало давать заметный выхлоп

все обучатели её в этом качестве используют

DM>При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.

смотря что иметь ввиду под небольшой
у меня слабый ноут, я гонял маленькие модели
программировать они не могут. за любую задачу берутся смело, а по факту из 10+ перепробованных только одна может пару строчек поправить, а уж что-то большее заставляет любую фонтанировать случайным кодом
то что ты взял — это прямо нижняя граница, дальше уже просто мрак
разница с моделями, которые доступны для чата в инете просто космическая

по ощущениям у моделей сейчас что-то типа поздних 80х у компов — разброс возможностей огромен

__>ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.

__>P.S. Надеюсь что все же попробуют создать именно ИИ

в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.

Здравствуйте, koenig, Вы писали:
K>в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.
По этой дороге можно ходить в обе стороны. В том смысле, что практические результаты в деле создания ИИ начинают подпитывать субстрат, на котором растут гипотезы о работе естественного интеллекта.
Предположениям о том, что язык и мышление связаны, больше сотни лет. Но только теперь мы получили в дополнение к умозрительным рассуждениям на эту тему результаты практических экспериментов.
Удивительно как раз то, что штука, спроектированная для "эмуляции человекоподобных разговоров", демонстрирует поведение, трудноотличимое от "настоящего мышления".

K>>в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.
S>По этой дороге можно ходить в обе стороны. В том смысле, что практические результаты в деле создания ИИ начинают подпитывать субстрат, на котором растут гипотезы о работе естественного интеллекта.
S>Предположениям о том, что язык и мышление связаны, больше сотни лет. Но только теперь мы получили в дополнение к умозрительным рассуждениям на эту тему результаты практических экспериментов.
S>Удивительно как раз то, что штука, спроектированная для "эмуляции человекоподобных разговоров", демонстрирует поведение, трудноотличимое от "настоящего мышления".

в свою защиту — меня рассуждения о том, что естественный интеллект как-то качественно отличается напрягают не потому что искусственный подозрительно похож, а потому что любим мы про естественный фантазировать, безотносительно искусственного. пишем тут "искусственный врет и галлюцинирует, до настоящего ему далеко", а потом идем в политику и ругаем оппонентов за то что они врут и галлюцинируют. я это воспринимаю не как "вот как искусственный ловко повторил", а как "в силу соц. норм мы привыкли про естественный воображать то, чем он и близко не является"

Здравствуйте, koenig, Вы писали:

K>в свою защиту — меня рассуждения о том, что естественный интеллект как-то качественно отличается напрягают не потому что искусственный подозрительно похож, а потому что любим мы про естественный фантазировать, безотносительно искусственного. пишем тут "искусственный врет и галлюцинирует, до настоящего ему далеко", а потом идем в политику и ругаем оппонентов за то что они врут и галлюцинируют. я это воспринимаю не как "вот как искусственный ловко повторил", а как "в силу соц. норм мы привыкли про естественный воображать то, чем он и близко не является"

Имхо, тут дело не в соц. нормах, а в тенденции некоторых отдельных людей исходить из неявного предположения о сакральности естественного интеллекта.
Не всем комфортно жить в парадигме "я всего лишь изощрённый автомат", непременно хочется быть подобием божьим с бессмертной душой и свободой воли.

Здравствуйте, koenig, Вы писали:

ЕМ>>С каких пор википедия стала эталоном истины?

K>с тех пор как обучение нейросетей стало давать заметный выхлоп
K>все обучатели её в этом качестве используют

Предлагаете это всячески поддерживать, дабы ИИ усугублял все косяки ВП, которые и без него утомляют?

ЕМ>>>С каких пор википедия стала эталоном истины?
K>>с тех пор как обучение нейросетей стало давать заметный выхлоп
K>>все обучатели её в этом качестве используют
ЕМ>Предлагаете это всячески поддерживать, дабы ИИ усугублял все косяки ВП, которые и без него утомляют?

у меня нет никакого влияния на эти компании, так что как-то поддерживать это я не могу
я бы мог на это повлиять если бы нашел источник получше — они бы с радостью переключились на него
но я такого источника не знаю. обычные энциклопедии сильно уступают по объему и актуальности, а политически мотивированной цензуре подвержены ничуть не меньше.

	От:	_ilya_
	Дата:	15.04.26 22:46
	Оценка:

От:	Эйнсток Файр	Странный реагент
Дата:	16.04.26 00:15
Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	16.04.26 06:46
Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	16.04.26 06:53
Оценка:

От:	Евгений Музыченко	https://software.muzychenko.net/ru
Дата:	16.04.26 08:28
Оценка:

От:	D. Mon	http://thedeemon.livejournal.com
Дата:	16.04.26 15:16
Оценка:

От:	Sinclair	https://github.com/evilguest/
Дата:	20.04.26 05:19
Оценка:	+1

От:	Pauel	http://blogs.rsdn.org/ikemefula
Дата:	20.04.26 15:12
Оценка:

	От:	Shmj
	Дата:	19.04.26 21:05
	Оценка:

	От:	MaximVK
	Дата:	19.04.26 21:50
	Оценка:

	От:	graniar
	Дата:	19.04.26 23:44
	Оценка: