Оптимизация токенов OpenClaw

Снизьте свои расходы на ИИ на 97%: от $1500+/месяц до менее $50/месяц

OpenClaw

Руководство по оптимизации токенов

Снизьте свои расходы на ИИ на 97%

От $1500+/месяц до менее $50/месяц

ЧТО ВЫ ДОСТИГНЕТЕ
97% Снижение расхода токенов • 5 минут на внедрение • Без сложной настройки • Бесплатный локальный хартбит • Умная маршрутизация моделей • Управление сессиями

ScaleUP Media
@mattganzak

Введение

Если вы запустили OpenClaw и наблюдаете, как растут ваши счета за API, вы не одиноки. Конфигурация по умолчанию отдаёт приоритет возможностям перед стоимостью, что означает, что вы, вероятно, сжигаете токены на рутинные задачи, которым не нужны дорогие модели.

В этом руководстве рассматриваются шесть ключевых оптимизаций, которые работают вместе, чтобы резко снизить ваши расходы:

Инициализация сессий — перестаньте загружать 50 КБ истории при каждом сообщении
Маршрутизация моделей — используйте Haiku для рутинных задач, Sonnet только когда нужно
Хартбит в Ollama — перенесите проверки хартбита в бесплатный локальный LLM
Лимиты скорости и бюджеты — предотвратите выход из-под контроля автоматизации, сжигающей токены
Шаблоны файлов рабочей области
Кеширование промптов

ПОЧЕМУ ЭТО ВАЖНО
Каждая оптимизация нацелена на другой драйвер расходов. Вместе они приведут вас от $1500+/месяц к $30–50/месяц. Это деньги, которые можно реинвестировать в реальное создание вещей.

Общий итог по затратам

Временной период	До	После
Ежедневно	$2–3	$0.10
Ежемесячно	$70–90	$3–5
Ежегодно	$800+	$40–60

Часть 1: Инициализация сессий

ПРОБЛЕМА
Ваш агент загружает 50 КБ истории при каждом сообщении. Это тратит 2–3 млн токенов за сессию и стоит $4 в день. Если вы используете сторонний мессенджинг или интерфейсы без встроенной очистки сессий, эта проблема быстро усугубляется.

Решение

Добавьте это правило инициализации сессий в системный промпт вашего агента. Оно точно говорит вашему агенту, что загружать (и что НЕ загружать) при старте каждой сессии:

ПРАВИЛО ИНИЦИАЛИЗАЦИИ СЕССИИ:
При каждом старте сессии:

Загружайте ТОЛЬКО эти файлы:
- SOUL.md
- USER.md
- IDENTITY.md
- memory/YYYY-MM-DD.md (если существует)
НЕ загружайте автоматически:
- MEMORY.md
- История сессий
- Предыдущие сообщения
- Предыдущие выводы инструментов
Когда пользователь спрашивает о предыдущем контексте:
- Используйте memory_search() по запросу
- Вытягивайте только релевантный фрагмент с помощью memory_get()
- Не загружайте весь файл
Обновляйте memory/YYYY-MM-DD.md в конце сессии:
- Что вы делали
- Принятые решения
- Сгенерированные лиды
- Блокеры
- Следующие шаги

Это экономит 80% на накладных расходах контекста.

Почему это работает

Сессия начинается с 8 КБ вместо 50 КБ
История загружается только когда об этом просят
Ежедневные заметки становятся вашей реальной памятью
Работает с любым интерфейсом — не нужна встроенная очистка сессий

Результаты: до и после

	❌ ДО	✓ ПОСЛЕ
Размер контекста	50 КБ контекста при старте	8 КБ контекста при старте
Токены	2–3 млн токенов тратится за сессию	Загружается только нужное
Стоимость	$0.40 за сессию	$0.05 за сессию
История	Раздутие истории со временем	Чистые ежедневные файлы памяти
Управление	Нет управления сессиями	Работает с любым интерфейсом

Часть 2: Маршрутизация моделей (Model Tiering)

Из коробки OpenClaw обычно использует одну флагманскую модель для всего. Хотя Claude Opus или GPT-5 превосходны, это избыточно для рутинных задач. Velvet Shark и другие эксперты рекомендуют Model Tiering — распределение задач по уровням интеллекта и стоимости.

Концепция Model Tiering

Уровень	Задачи	Рекомендуемая модель	Относительная стоимость
Frontier (Мозг)	Архитектура, сложный код, стратегия	Claude Opus / GPT-5	100% (База)
Workhorse (Рабочая)	Создание контента, рефакторинг	Claude Sonnet / Gemini Pro	~60% дешевле
Utility (Утилиты)	Хартбиты, поиск файлов, классификация	Gemini Flash / Haiku	на 97-99% дешевле

Шаг 1: Обновите вашу конфигурацию (Manual Tiering)

Ваш файл конфигурации OpenClaw находится по адресу:

~/.openclaw/openclaw.json

Добавьте или обновите вашу конфигурацию этими настройками моделей:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-haiku-4-5",
        "fallbacks": [
          "openai/gpt-5.2",
          "deepseek/deepseek-reasoner",
          "google/gemini-3-flash"
        ]
      },
      "models": {
        "anthropic/claude-opus-4-5": { "alias": "opus" },
        "anthropic/claude-sonnet-4-5": { "alias": "sonnet" },
        "anthropic/claude-haiku-4-5": { "alias": "haiku" },
        "google/gemini-3-flash": { "alias": "flash" }
      }
    }
  }
}

Что это дает:

Умные Fallbacks: Использование цепочки моделей от разных провайдеров. Если Anthropic недоступен, OpenClaw автоматически переключится на OpenAI или Google, предотвращая остановку агента.
Алиасы для команды /model: Вы можете переключаться между уровнями “мозга” прямо в чате. Нужно решить сложную архитектурную задачу? Пишите /model opus. Нужно просто проверить погоду? /model flash.

Шаг 2: Добавьте правила маршрутизации в системный промпт

ПРАВИЛО ВЫБОРА МОДЕЛИ:
По умолчанию: Всегда используйте Haiku
Переключайтесь на Sonnet ТОЛЬКО когда:

Архитектурные решения
Code review для продакшена
Анализ безопасности
Сложная отладка/рассуждения
Стратегические мультипроектные решения

Если сомневаетесь: Сначала попробуйте Haiku.

Результаты: до и после

	❌ ДО	✓ ПОСЛЕ
Модель	Sonnet для всего	Haiku по умолчанию
Стоимость	$0.003 за 1К токенов	$0.00025 за 1К токенов
Эффективность	Избыточно для простых задач	Правильная модель для работы
Месячные расходы	$50–70/месяц на моделях	$5–10/месяц на моделях

Часть 3: Хартбит в Ollama

OpenClaw отправляет периодические проверки хартбита, чтобы убедиться, что ваш агент работает и отвечает. По умолчанию эти проверки используют платный API — что быстро накапливается, если вы запускаете агентов 24/7. Решение? Маршрутизируйте хартбиты в бесплатный локальный LLM через Ollama.

Шаг 1: Установите Ollama

Если у вас ещё не установлен Ollama, скачайте его с ollama.ai или выполните:

# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh
# Затем загрузите лёгкую модель для хартбитов
ollama pull llama3.2:3b

Почему llama3.2:3b?
Она лёгкая (2 ГБ), быстрая и лучше справляется со сложным контекстом, чем 1b для продакшена.

Шаг 2: Настройте OpenClaw для хартбита через Ollama

Обновите вашу конфигурацию в ~/.openclaw/openclaw.json, чтобы маршрутизировать хартбиты в Ollama. Обратите внимание, что Ollama подключается как OpenAI-совместимый провайдер:

{
  "agents": {
    "defaults": {
      "heartbeat": {
        "every": "1h",
        "model": "ollama/llama3.2:3b",
        "target": "last",
        "prompt": "Read HEARTBEAT.md if it exists (workspace context). Follow it strictly. Do not infer or repeat old tasks from prior chats. If nothing needs attention, reply HEARTBEAT_OK."
      }
    }
  },
  "models": {
    "mode": "merge",
    "providers": {
      "ollama": {
        "baseUrl": "http://127.0.0.1:11434/v1",
        "apiKey": "ollama-local",
        "api": "openai-completions",
        "models": [
          {
            "id": "llama3.2:3b",
            "name": "Ollama Llama 3.2 3B",
            "reasoning": false,
            "input": ["text"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 131072,
            "maxTokens": 4096
          }
        ]
      }
    }
  }
}

Опции конфигурации Heartbeat

Опция	Описание
every	Интервал между проверками (например, “30m”, “1h”)
model	Модель для хартбита в формате `provider/model`
target	Куда слать уведомления (`last` по умолчанию, `none` или id канала)
prompt	Текст задания для агента во время хартбита

Ключевые механизмы Heartbeat

HEARTBEAT.md: Создайте этот файл в рабочей директории агента. Это ваш «чек-лист», который агент будет читать при каждой проверке. Держите его коротким.
HEARTBEAT_OK: Если агенту нечего сообщить, он должен ответить этой фразой. OpenClaw автоматически скроет такой ответ, чтобы не спамить в чат.
activeHours: Вы можете ограничить работу хартбитов только дневным временем, добавив activeHours: { "start": "09:00", "end": "22:00" } в конфиг.

Результаты: до и после

	❌ ДО	✓ ПОСЛЕ
Хартбиты	Используют платный API	Используют бесплатный локальный LLM
Вызовы API	48 вызовов/день (каждые 30 мин)	Ноль платных вызовов для хартбитов
Стоимость	$5–15/месяц	$0/месяц
Управление	Сложно контролировать чеклист	Управляется через HEARTBEAT.md

Шаг 3: Проверьте, что Ollama запущен

# Убедитесь, что Ollama запущен
ollama serve
# В другом терминале протестируйте модель
ollama run llama3.2:3b "ответь OK"
# Должен быстро ответить "OK" или подобное

Результаты: до и после

	❌ ДО	✓ ПОСЛЕ
Хартбиты	Используют платный API	Используют бесплатный локальный LLM
Частота	Ограничена (обычно 30–60 мин)	Высокая (хоть каждую минуту / 1440/день)
Стоимость	$5–15/месяц (при 48 вызовах/день)	$0/месяц (даже при 1440 вызовах/день)
Управление	Сложно контролировать чеклист	Управляется через HEARTBEAT.md

Почему это работает

Хартбиты переносятся на локальное железо.
OpenClaw автоматически фильтрует “пустые” ответы (HEARTBEAT_OK).
История сессии не раздувается лишними сообщениями.

Часть 4: Лимиты скорости и контроль бюджета

Даже с маршрутизацией моделей и оптимизированными сессиями, вышедшая из-под контроля автоматизация всё ещё может сжигать токены. Эти лимиты скорости действуют как ограничители, чтобы защитить вас от случайных взрывов расходов.

Добавьте в системный промпт

ЛИМИТЫ СКОРОСТИ:

Минимум 5 секунд между вызовами API
10 секунд между веб-поисками
Максимум 5 поисков за батч, затем перерыв на 2 минуты
Батчьте подобную работу (один запрос для 10 лидов, не 10 запросов)
Если получили ошибку 429: ОСТАНОВИТЕСЬ, подождите 5 минут, повторите

ДНЕВНОЙ БЮДЖЕТ: $5 (предупреждение на 75%)
ЕЖЕМЕСЯЧНЫЙ БЮДЖЕТ: $200 (предупреждение на 75%)

Лимит	Что предотвращает
5 сек между вызовами API	Быстрые запросы, сжигающие токены
10 сек между поисками	Дорогие циклы поиска
5 поисков максимум, затем перерыв	Вышедшие из-под контроля исследовательские задачи
Батчьте подобную работу	10 вызовов, когда хватило бы 1
Предупреждения о бюджете на 75%	Неожиданные счета в конце месяца

Результаты: до и после

	❌ ДО	✓ ПОСЛЕ
Лимиты	Нет лимитов скорости	Встроенный темп
Вызовы	Агент делает 100+ вызовов в циклах	Контролируемое, предсказуемое использование
Поиски	Поисковые спирали сжигают $20+ за ночь	Максимальное ежедневное воздействие ограничено
Бюджет	Нет видимости бюджета	Предупреждения до достижения лимитов

Часть 5: Шаблоны файлов рабочей области

Создайте эти файлы в вашей рабочей области. Они предоставляют существенный контекст, который нужен вашему агенту, сохраняя при этом минимизацию следа токенов.

Шаблон SOUL.md

Этот файл определяет ключевые принципы и правила работы вашего агента:

# SOUL.md

[Здесь ваши принципы и правила агента]

Шаблон USER.md

Этот файл предоставляет вашему агенту контекст о вас и ваших целях:

# USER.md
- **Имя:** [ВАШЕ ИМЯ]
- **Часовой пояс:** [ВАШ ЧАСОВОЙ ПОЯС]
- **Миссия:** [ЧТО ВЫ СТРОИТЕ]

# Метрики успеха
- [МЕТРИКА 1]
- [МЕТРИКА 2]
- [МЕТРИКА 3]

Держите в тон
Не поддавайтесь желанию добавить в эти файлы всё подряд. Каждая строка стоит токенов при каждом запросе. Включайте только то, что агенту абсолютно нужно для принятия качественных решений.

Часть 6: Кеширование промптов

90% скидка на переиспользуемый контент

ПРОБЛЕМА
Ваш системный промпт, файлы рабочей области (SOUL.md, USER.md) и справочные материалы отправляются в API с каждым одиночным сообщением. Если ваш системный промпт — 5 КБ и вы делаете 100 вызовов API в неделю, это 500 КБ идентичного текста, который пересылается и переобрабатывается каждую неделю. С Claude вы платите полную цену за каждую копию.

РЕШЕНИЕ
Кеширование промптов (доступно на Claude 3.5 Sonnet и новее) берёт только 10% за кешированные токены при повторном использовании и 25% за запись в кеш. Для статического контента, который вы используете повторно, это снижает затраты на 90%.

Как работает кеширование промптов

Когда вы отправляете контент в Claude:

Первый запрос: Полная цена (1 токен = $0.003)
Claude сохраняет в кеш: Помечен для повторного использования
Последующие запросы (в течение 5 минут): 90% скидка ($0.00003 за токен)

Что это означает
Системный промпт 5 КБ стоит ~$0.015 при первом использовании, затем $0.0015 при каждом повторном использовании. За 100 вызовов/неделю вы экономите ~$1.30/неделю только на системных промптах.

Шаг 1: Определите, что кешировать

✓ КЕШИРОВАТЬ ЭТО	❌ НЕ КЕШИРОВАТЬ
Системные промпты (редко меняются)	Ежедневные файлы памяти (часто меняются)
SOUL.md (принципы оператора)	Последние сообщения пользователя (свежие для каждой сессии)
USER.md (цели и контекст)	Выводы инструментов (меняются для каждой задачи)
Справочные материалы (цены, документация, спецификации)
Документация инструментов (редко обновляется)
Шаблоны проектов (стандартные структуры)

Шаг 2: Структура для кеширования

OpenClaw автоматически использует кеширование промптов, когда доступно. Чтобы максимизировать попадания в кеш, сохраняйте статический контент в выделенных файлах:

/workspace/
├── SOUL.md ← Кешируйте это (стабильное)
├── USER.md ← Кешируйте это (стабильное)
├── TOOLS.md ← Кешируйте это (стабильное)
├── memory/
│ ├── MEMORY.md ← Не кешируйте (часто обновляется)
│ └── 2026-02-03.md ← Не кешируйте (ежедневные заметки)
└── projects/
└── [ПРОЕКТ]/REFERENCE.md ← Кешируйте это (стабильная документация)

Реальный пример: Outreach Campaign

Вы запускаете 50 черновиков писем электронной почты в неделю, используя Sonnet (рассуждения + персонализация).

	БЕЗ КЕШИРОВАНИЯ	С КЕШИРОВАНИЕМ (В БАТАХ)
Системный промпт	5 КБ × 50 = 250 КБ/неделю	1 запись + 49 кешированных
Стоимость промпта	$0.75/неделю	$0.016/неделю
Черновики	50 черновиков × 8 КБ = $1.20/неделю	50 черновиков (~50% попаданий в кеш) = $0.60/неделю
Итого	$1.95/неделю = $102/месяц	$0.62/неделю = $32/месяц
		ЭКОНОМИЯ: $70/месяц

Результаты кеширования

	❌ ДО	✓ ПОСЛЕ
Промпт	Системный промпт отправляется с каждым запросом	Системный промпт кеширован, переиспользуется
Стоимость	5 КБ × 100 вызовов = $0.30	5 КБ × 100 вызовов = $0.003
Стратегия	Нет стратегии кеширования	Батчевание в 5-минутные окна
Попадания	Случайные пропуски кеша	90% попаданий по статическому контенту
Один проект	$50–100/месяц	$5–15/месяц
Несколько проектов	$300–500/месяц	$30–75/месяц

Шаг 3: Включите кеширование в конфигурацию

Обновите ~/.openclaw/openclaw-config.json для включения кеширования промптов:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-haiku-4-5"
      },
      "cache": {
        "enabled": true,
        "ttl": "5m",
        "priority": "high"
      },
      "models": {
        "anthropic/claude-sonnet-4-5": {
          "alias": "sonnet",
          "cache": true
        },
        "anthropic/claude-haiku-4-5": {
          "alias": "haiku",
          "cache": false
        }
      }
    }
  }
}

Примечание
Кеширование наиболее эффективно с Sonnet (задачи рассуждения, где оправданы большие промпты). Эффективность Haiku делает кеширование менее критичным.

Опции конфигурации

Опция	Описание
cache.enabled	true/false — Включить кеширование глобально
cache.ttl	Время жизни: “5m” (по умолчанию), “30m” (длинные сессии), “24h”
cache.priority	“high” (приоритизировать кеширование), “low” (баланс стоимости/скорости)
models.cache	true/false для каждой модели — Sonnet рекомендуется, Haiku опционально

Шаг 4: Стратегия попаданий в кеш

Чтобы максимизировать эффективность кеширования:

1. Батчуйте запросы в 5-минутные окна

Делайте несколько вызовов API в быстрой последовательности
Снижает пропуски кеша между запросами

2. Держите системные промпты стабильными

Не обновляйте SOUL.md в середине сессии
Изменения инвалидируют кеш; делайте их во время технических окон

3. Организуйте контекст иерархически

Основной системный промпт (высший приоритет)
Стабильные файлы рабочей области
Динамические ежедневные заметки (без кеша)

4. Для проектов: отделяйте стабильное от динамического

product-reference.md (стабильное, кешируется)
project-notes.md (динамическое, без кеша)
Предотвращает инвалидацию кеша от обновлений заметок

Когда НЕ использовать кеширование

Задачи Haiku (слишком дешёво для кеширования): Накладные расходы на кеширование перевешивают экономию.
Частые изменения промптов: Кеш трешится при каждом изменении, что дороже, чем отправка заново.
Разработка и тестирование: Слишком много итераций промптов; кеш постоянно сбрасывается.
Маленькие запросы (< 1 КБ): Накладные расходы кеширования перевешивают экономию.

Лучшие практики

Кешируйте стабильные системные промпты (SOUL.md, USER.md)
Батчуйте запросы в 5-минутные окна
Мониторируйте эффективность кеширования (целевая ставка попаданий > 80%)
Обновляйте системные промпты во время технических окон
Разделяйте стабильные документы от динамических заметок
Комбинируйте кеширование с маршрутизацией моделей (Sonnet + кеш = максимальная экономия)
Документируйте стратегию кеширования в TOOLS.md для консистентности

Проверка настроек

Проверьте эффективность кеширования с помощью session_status:

openclaw shell session_status
# Ищите метрики кеширования:
# Попадания в кеш: 45/50 (90%)
# Кешированные токены: 225 КБ (vs 250 без кеша)
# Экономия: $0.22 за эту сессию

Или запросите API напрямую:

# Проверьте своё использование за 24 часа
curl https://api.anthropic.com/v1/usage \
  -H "Authorization: Bearer $ANTHROPIC_API_KEY" | jq '.usage.cache'

Метрики для отслеживания

Метрика	Что она означает
Ставка попаданий в кеш > 80%	Стратегия кеширования работает
Кешированные токены < 30% от ввода	Системные промпты слишком большие (обрежьте)
Записи кеша растут	Системные промпты меняются слишком часто (стабилизируйте)
Стоимость сессии снизилась на 50%+	Кеширование + маршрутизация моделей работают
Снижение расходов по сравнению с прошлой неделей	Кеширование работает

Комбинирование всех оптимизаций

Кеширование умножает пользу от предыдущих оптимизаций:

Оптимизация	До	После	С кешированием
Инициализация сессий (чистый контекст)	$0.40	$0.05	$0.005
Маршрутизация моделей (Haiku по умолчанию)	$0.05	$0.02	$0.002
Хартбит в Ollama	$0.02	$0	$0
Лимиты скорости (батчирование)	$0	$0	$0
Кеширование промптов	$0	$0	-$0.015
ИТОГОВЫЙ КОМБИНИРОВАННЫЙ	$0.47	$0.07	$0.012

Общий результат: $40–60/месяц → $5–15/месяц

Устранение неполадок

Если стоимость снизилась не так, как ожидалось:

Проблема	Решение
Кеширование не работает	Проверьте, что `cache.enabled: true` в конфиге
Ставка попаданий в кеш низкая	Увеличьте `cache.ttl` до 30m для длинных сессий
Проблемы с лимитами	Убедитесь, что правила лимитов есть в системном промпте
Haiku используется для сложных задач	Проверьте правила маршрутизации моделей

Финальная верификация настроек

После внесения этих изменений, убедитесь, что всё работает правильно:

# Запустите сессию
openclaw shell
# Проверьте текущий статус
session_status
# Вы должны видеть:
# - Размер контекста: 2–8 КБ (не 50 КБ+)
# - Модель: Haiku (не Sonnet)
# - Хартбит: Ollama/local (не API)
# - Рутинные задачи выполняются без переключения на Sonnet
# - Ежедневные расходы упали до $0.10–0.50

Признаки, что всё работает

Размер контекста показывает 2–8 КБ вместо 50 КБ+
Основная модель показывает как Haiku
Хартбит показывает Ollama/local (не API)
Рутинные задачи выполняются без переключения на Sonnet
Ежедневные расходы упали до $0.10–0.50

Устранение неполадок

Размер контекста всё ещё большой → Проверьте, что правила инициализации сессий есть в системном промпте
Всё ещё использует Sonnet → Проверьте конфигурацию openclaw.json и синтакс правил маршрутизации
Расходы не снизились → Проверьте, что правила лимитов соблюдаются и используется кеширование
Ошибки хартбита → Убедитесь, что Ollama запущен (ollama serve)

Итоговое резюме

Всё готово к развёртыванию. Нет сложной настройки. Никаких скриптов управления файлами. Только умная конфигурация, чёткие правила в системном промпте и бесплатный локальный LLM для хартбитов. Интеллект в промпте, а не в инфраструктуре.

Итоговая экономия
97% снижение затрат: от $1500+/месяц до $30–50/месяц

Основные драйверы
Инициализация сессий, маршрутизация моделей, хартбит в Ollama, кеширование

Время внедрения
~5 минут (редактирование конфига и промпта)

Поддерживаемые модели
Claude 3.5 Sonnet (кеширование), Claude 3.5 Haiku (по умолчанию), Ollama (локальный)

Требуемый опыт
Базовый (редактирование JSON и файлов). Нужен только один раз для настройки.

ScaleUP Media
@mattganzak

Quick Reference Checklist

SESSION INITIALIZATION

☐ Добавьте SESSION INITIALIZATION RULE в системный промпт

MODEL ROUTING

☐ Обновите ~/.openclaw/openclaw.json с псевдонимами моделей
☐ Добавьте MODEL SELECTION RULE в системный промпт

HEARTBEAT TO OLLAMA

☐ Установите Ollama и загрузите llama3.2:3b
☐ Добавьте heartbeat-конфиг с указанием Ollama
☐ Проверьте, что Ollama запущен (ollama serve)

RATE LIMITS & WORKSPACE

☐ Добавьте RATE LIMITS в системный промпт
☐ Создайте SOUL.md с основными принципами
☐ Создайте USER.md с вашей информацией
☐ Проверьте через session_status

Источник: OpenClaw Token Optimization Guide