Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: _ilya_  
Дата: 22.04.26 17:35
Оценка:
Здравствуйте, Nuzhny, Вы писали:

N> Оптимизируют больше способность к обобщению, которая коррелирует с сокращением объёма информации, но не эквивалентна ему.

Вероятно такое само получается, так как запихивают чрезвычайно огромный объем данных, он без потерь никаким кодеком не сожмется до размера LLM. Настраиваются веса при обучении, т.е. получается что подгоняют под минимальные потери при сжатии.
Re[2]: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на
От: _ilya_  
Дата: 22.04.26 17:41
Оценка:
Здравствуйте, D. Mon, Вы писали:

DM>100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.


Сжатие — векторное и смысловое. Понятия на разных языках скорее слабо расходятся, поэтому хранится 1 вектор смысловой (вне зависимости от языка) и далее куча инфы про это. И поэтому там хоть на 100 языков будет перевод, который особо не занимает места, лишь скорее словарь и соответствие вектору для каждого языка, это вообще мегабайты для каждого языка, т.е. ничто.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 04.05.26 07:23
Оценка:
Здравствуйте, _ilya_, Вы писали:

__>Сжатие смысловых векторов пока не придумано и википедию в LLM не погрузили без ошибок, хотя размеры данных раз в 7 больше имеются. ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.


Кстати, вспомнил, что большой специалист по сжатию Fabrice Bellard как раз этим и занимался:

In April 2021, his artificial neural network–based data compressor, NNCP, took first place out of hundreds in the Large Text Compression Benchmark.[18] The compressor uses Bellard's own artificial neural network library, LibNC ("C Library for Tensor Manipulation"), which is publicly available.

In August 2023, Bellard released ts_zip, a lossless text compressor using a large language model. He updated it in March 2024, making the algorithm considerably faster as well as hardware-independent.

In April 2024, Bellard released TSAC, an audio compression utility that can achieve very low bitrates of 5.5kbit/s (mono) or 7.5kbit/s (stereo) while still preserving reasonable audio quality at 44.1 kHz.

И его нейросетевой кодек ts_zip победил в соревновании по сжатию Википедии.
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.