Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
Огромный коэффициент сжатия у LLM хотя и с потерями, но был без особых проблем для среднего человека, но данные даже так не сжимают в LLM.
Сжатие смысловых векторов пока не придумано и википедию в LLM не погрузили без ошибок, хотя размеры данных раз в 7 больше имеются. ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.
Даже теле-ящик перевели в цифру и сжали в 100:1 и работает скорее качественнее ибо цифра. Примерно так и LLM работают.
LLM как то неадекватно сжимают, т.е. там алгоритмы зачаточного уровня. Не могут даже википедию английскую (полная но без картинок менее 100ГБ) даже без багов запихнуть в DeepSeek который под 700ГБ и уж точно вместил все википедии без потерь. Но он "сжатый" и по "смыслу". "Сжатие" переместилось в смысловые термины, в которых якобы ИИ, а на деле вообще не обладающие никаким интеллектом LLM переводят одно в другое — из языков/картинок/видео в любой другой язык/модифицированные картинки/другое видео. Но это языковые модели-переводчики и отлично справляются почти везде, но интеллектом у переводчика не пахнет.
Вообщем клевое сжатие с потерями + естественно очень быстрый поиск среди такого (векторное по смыслу) это будет Go0gle 2.0 Неизвестно кто победит, но все борются и уже сотни миллиардов (необеспеченных фантиков в будущем) поставлены на кон. Вся борьба антинаучна — запихивание экзабайт в автомат который лишь может предсказывать с какой-то вероятностью следующее слово, это ни разу не интеллект.
Запихнуть все википедии + все книги без особых потерь было бы интересней, на сколько весят все знания человечества в сжатом виде и что никакой человек не увидит потерь...
P.S. Надеюсь что все же попробуют создать именно ИИ — и это будет отдельная штука, не очень большого объема и ресурсов вначале но сильно умнее текущих и банки знаний — на несколько сотен Гигабайт или Терабайт это будут вообще отдельные подключаемые сервисы. Здравомыслие точно разделимо на мыслительную деятельность и на запомненные знания и это разное.
Здравствуйте, _ilya_, Вы писали:
__>LLM как то неадекватно сжимают, т.е. там алгоритмы зачаточного уровня.
Наверное, LLM не разрабатывали для сжатия. Для сжатия автоэнкодеры существуют, ни их основе кодеки делают. У тебя будет обучаться сразу и энкодер, и декодер. На какой-нибудь видеокамере реализован только энкодер, которому на вход поступают данные, он их преобразует и отдаёт по сети. Далее у пользователя есть декодер этого автоэнкодера, который разжимает данные. Например, VideoMost. Такие кодеки не распространены, потому что требуют нейроускорителя для аппаратного ускорения.
Что-то подобное можно найти и в LLM, но она же состоит не только из энкодера. Да, там есть и текстовый энкодер, и картиночный, но при обучении никто не оптимизирует минимальный размер состояния. Оптимизируют больше способность к обобщению, которая коррелирует с сокращением объёма информации, но не эквивалентна ему.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
Здравствуйте, _ilya_, Вы писали:
__>Даже в deepseek 700GB не запихнули...
Сам Deepseek — это не сжатые данные, а "программа" для их и компрессии, и декомпрессии, и интерпретации. Это всё равно, как если бы ты вместо с rar архивом носил с собой и весь WinRAR, и учитывал его размер, как размер архива.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
Здравствуйте, Евгений Музыченко, Вы писали:
ЕМ>Здравствуйте, _ilya_, Вы писали:
__>>Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
ЕМ>С каких пор википедия стала эталоном истины?
Ни с каких. В данном случае имеется в виду, что LLM должна выдать ответ, соответствующий (или не противоречащий) Википедии.
Течёт вода Кубань-реки куда велят большевики.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на
Здравствуйте, _ilya_, Вы писали:
__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.
Вот я сейчас скачал открытую модель gemma4 26b — всего 17 GB размером! — и она мне локально на лэптопе на разных языках легко отвечает на энциклопедические вопросы: скриншот
При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.
__>Сжатие смысловых векторов пока не придумано
Придумано и не раз, см. например недавний TurboQuant. Вроде в той же Gemma4 он использован.
Здравствуйте, _ilya_, Вы писали:
__>Запихнуть все википедии + все книги без особых потерь было бы интересней, на сколько весят все знания человечества в сжатом виде и что никакой человек не увидит потерь...
Так же и все фильмы можно — перевести в текстовый вид, а потом генерить на лету по тексту. Каждый раз генерация будет немножко другой, но без потери смысла. Так даже интереснее.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
LLM — это большая аппроксимация распределений в языке с учетом контекста. Ее цель — это уметь продолжить текст, на это ее и обучают, а не как можно точное восстановление исходного документа. Второго можно добиться с помощью всяких RAG, tools и внешней памяти, где можно применить все современные технологии для сжатия документов.
Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
Здравствуйте, MaximVK, Вы писали:
MVK>LLM — это большая аппроксимация распределений в языке с учетом контекста. Ее цель — это уметь продолжить текст, на это ее и обучают, а не как можно точное восстановление исходного документа. Второго можно добиться с помощью всяких RAG, tools и внешней памяти, где можно применить все современные технологии для сжатия документов.
Ну это в каком-то смысле сжатие данных всей обучающей выборки.
Для архиватора можно обучать нейросетку на одном только сжимаемом файле. Дообучать до состояния, когда сможет воспроизводить с необходимой точностью.
А матрица весов нейросети и будет сархивированным вариантом.
Другое дело, что стоимость такой архивации получается запредельной
Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
DM>При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.
смотря что иметь ввиду под небольшой
у меня слабый ноут, я гонял маленькие модели
программировать они не могут. за любую задачу берутся смело, а по факту из 10+ перепробованных только одна может пару строчек поправить, а уж что-то большее заставляет любую фонтанировать случайным кодом
то что ты взял — это прямо нижняя граница, дальше уже просто мрак
разница с моделями, которые доступны для чата в инете просто космическая
по ощущениям у моделей сейчас что-то типа поздних 80х у компов — разброс возможностей огромен
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
Здравствуйте, koenig, Вы писали: K>в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект.
По этой дороге можно ходить в обе стороны. В том смысле, что практические результаты в деле создания ИИ начинают подпитывать субстрат, на котором растут гипотезы о работе естественного интеллекта.
Предположениям о том, что язык и мышление связаны, больше сотни лет. Но только теперь мы получили в дополнение к умозрительным рассуждениям на эту тему результаты практических экспериментов.
Удивительно как раз то, что штука, спроектированная для "эмуляции человекоподобных разговоров", демонстрирует поведение, трудноотличимое от "настоящего мышления".
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[3]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ"
K>>в деле создания ИИ человечество хуже всего понимает, как работает естественный интеллект. S>По этой дороге можно ходить в обе стороны. В том смысле, что практические результаты в деле создания ИИ начинают подпитывать субстрат, на котором растут гипотезы о работе естественного интеллекта. S>Предположениям о том, что язык и мышление связаны, больше сотни лет. Но только теперь мы получили в дополнение к умозрительным рассуждениям на эту тему результаты практических экспериментов. S>Удивительно как раз то, что штука, спроектированная для "эмуляции человекоподобных разговоров", демонстрирует поведение, трудноотличимое от "настоящего мышления".
в свою защиту — меня рассуждения о том, что естественный интеллект как-то качественно отличается напрягают не потому что искусственный подозрительно похож, а потому что любим мы про естественный фантазировать, безотносительно искусственного. пишем тут "искусственный врет и галлюцинирует, до настоящего ему далеко", а потом идем в политику и ругаем оппонентов за то что они врут и галлюцинируют. я это воспринимаю не как "вот как искусственный ловко повторил", а как "в силу соц. норм мы привыкли про естественный воображать то, чем он и близко не является"
Здравствуйте, koenig, Вы писали:
K>в свою защиту — меня рассуждения о том, что естественный интеллект как-то качественно отличается напрягают не потому что искусственный подозрительно похож, а потому что любим мы про естественный фантазировать, безотносительно искусственного. пишем тут "искусственный врет и галлюцинирует, до настоящего ему далеко", а потом идем в политику и ругаем оппонентов за то что они врут и галлюцинируют. я это воспринимаю не как "вот как искусственный ловко повторил", а как "в силу соц. норм мы привыкли про естественный воображать то, чем он и близко не является"
Имхо, тут дело не в соц. нормах, а в тенденции некоторых отдельных людей исходить из неявного предположения о сакральности естественного интеллекта.
Не всем комфортно жить в парадигме "я всего лишь изощрённый автомат", непременно хочется быть подобием божьим с бессмертной душой и свободой воли.
Уйдемте отсюда, Румата! У вас слишком богатые погреба.
Re[3]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
Здравствуйте, koenig, Вы писали:
ЕМ>>С каких пор википедия стала эталоном истины?
K>с тех пор как обучение нейросетей стало давать заметный выхлоп K>все обучатели её в этом качестве используют
Предлагаете это всячески поддерживать, дабы ИИ усугублял все косяки ВП, которые и без него утомляют?
Re[4]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
ЕМ>>>С каких пор википедия стала эталоном истины? K>>с тех пор как обучение нейросетей стало давать заметный выхлоп K>>все обучатели её в этом качестве используют ЕМ>Предлагаете это всячески поддерживать, дабы ИИ усугублял все косяки ВП, которые и без него утомляют?
у меня нет никакого влияния на эти компании, так что как-то поддерживать это я не могу
я бы мог на это повлиять если бы нашел источник получше — они бы с радостью переключились на него
но я такого источника не знаю. обычные энциклопедии сильно уступают по объему и актуальности, а политически мотивированной цензуре подвержены ничуть не меньше.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
Здравствуйте, _ilya_, Вы писали:
__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
уже нашлось много способов ужать модель в размере без потери точности