Здравствуйте, D. Mon, Вы писали:
DM>100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.
Сжатие — векторное и смысловое. Понятия на разных языках скорее слабо расходятся, поэтому хранится 1 вектор смысловой (вне зависимости от языка) и далее куча инфы про это. И поэтому там хоть на 100 языков будет перевод, который особо не занимает места, лишь скорее словарь и соответствие вектору для каждого языка, это вообще мегабайты для каждого языка, т.е. ничто.
Здравствуйте, _ilya_, Вы писали:
__>Сжатие смысловых векторов пока не придумано и википедию в LLM не погрузили без ошибок, хотя размеры данных раз в 7 больше имеются. ИИ не может так врать, ну а LLM запросто — нет никакого интеллекта в алгоритмах.
Кстати, вспомнил, что большой специалист по сжатию
Fabrice Bellard как раз этим и занимался:
In April 2021, his artificial neural network–based data compressor, NNCP, took first place out of hundreds in the Large Text Compression Benchmark.[18] The compressor uses Bellard's own artificial neural network library, LibNC ("C Library for Tensor Manipulation"), which is publicly available.
In August 2023, Bellard released ts_zip, a lossless text compressor using a large language model. He updated it in March 2024, making the algorithm considerably faster as well as hardware-independent.
In April 2024, Bellard released TSAC, an audio compression utility that can achieve very low bitrates of 5.5kbit/s (mono) or 7.5kbit/s (stereo) while still preserving reasonable audio quality at 44.1 kHz.
И его нейросетевой кодек ts_zip победил в соревновании по сжатию Википедии.