Context window и O(n^2) у ollama
От: Артём Австралия жж
Дата: 08.02.26 09:34
Оценка:
Подозреваю, что вначале чата, оллама бодро начинает (локальный инференс, llama3.2 на amd igpu), и дальше по мере роста цепочки сообщений, замедляется.

А есть такое, ну типа как online hash — чтоб оллама продолжала с того места, где закончила в прошлый раз? Это семанттческий кеш? А как его активировать, каким ключиком?


update — Ollama использует KV-cache prefix по умолчанию. Похоже что у Ollama случается cache-miss, когда история сообщений выходит за пределы context size и Ollama выбрасывает (игнорит) самые старые сообщения.
Отредактировано 09.02.2026 3:49 Артём . Предыдущая версия .
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.