Сообщение Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на от 16.04.2026 15:16
Изменено 16.04.2026 16:06 D. Mon
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на этом
Здравствуйте, _ilya_, Вы писали:
__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.
Вот я сейчас скачал открытую модель gemma4 26b — меньше 17 GB размером! — и она мне локально на лэптопе на разных языках легко отвечает на энциклопедические вопросы:
скриншот
При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.
__>Сжатие смысловых векторов пока не придумано
Придумано и не раз, см. например недавний TurboQuant. Вроде в той же Gemma4 он использован.
__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.
Вот я сейчас скачал открытую модель gemma4 26b — меньше 17 GB размером! — и она мне локально на лэптопе на разных языках легко отвечает на энциклопедические вопросы:
скриншот
При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.
__>Сжатие смысловых векторов пока не придумано
Придумано и не раз, см. например недавний TurboQuant. Вроде в той же Gemma4 он использован.
Re: Возникнет ли новая наука о сжатых данных, LLM = "ИИ" на
Здравствуйте, _ilya_, Вы писали:
__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.
Вот я сейчас скачал открытую модель gemma4 26b — всего 17 GB размером! — и она мне локально на лэптопе на разных языках легко отвечает на энциклопедические вопросы:
скриншот
При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.
__>Сжатие смысловых векторов пока не придумано
Придумано и не раз, см. например недавний TurboQuant. Вроде в той же Gemma4 он использован.
__>Потеря данных при сжатии — как использовать, текущие LLM перемалывают адское количество данных в малое, при том что пока результат плохой... Даже в deepseek 700GB не запихнули известных 100GB сжатой википедии 1:1 чтобы отвечал не наврав.
100GB это сколько языков, один? LLM же на куче языков говорят, и на входе у них была не только википедия (а значит на википедию из тех 700 ГБ "приходится" совсем чуть-чуть). Потому наоборот, степень сжатия, количество запомненной информации весьма впечатляет.
Вот я сейчас скачал открытую модель gemma4 26b — всего 17 GB размером! — и она мне локально на лэптопе на разных языках легко отвечает на энциклопедические вопросы:
скриншот
При этом эта же небольшая модель помимо текста может понимать изображения и вроде даже звук. И программирует небось получше многих тут.
__>Сжатие смысловых векторов пока не придумано
Придумано и не раз, см. например недавний TurboQuant. Вроде в той же Gemma4 он использован.