Подозреваю, что вначале чата, оллама бодро начинает (локальный инференс, llama3.2 на amd igpu), и дальше по мере роста цепочки сообщений, замедляется.
А есть такое, ну типа как online hash — чтоб оллама продолжала с того места, где закончила в прошлый раз? Это семанттческий кеш? А как его активировать, каким ключиком?
update — Ollama использует KV-cache prefix по умолчанию. Похоже что у Ollama случается cache-miss, когда история сообщений выходит за пределы context size и Ollama выбрасывает (игнорит) самые старые сообщения.