tsingular.ru
Все материалы

Оптимизация токенов OpenClaw

Снизьте свои расходы на ИИ на 97%: от $1500+/месяц до менее $50/месяц

OpenClaw

Руководство по оптимизации токенов

Снизьте свои расходы на ИИ на 97%

От $1500+/месяц до менее $50/месяц

ЧТО ВЫ ДОСТИГНЕТЕ
97% Снижение расхода токенов • 5 минут на внедрение • Без сложной настройки • Бесплатный локальный хартбит • Умная маршрутизация моделей • Управление сессиями

ScaleUP Media
@mattganzak

Введение

Если вы запустили OpenClaw и наблюдаете, как растут ваши счета за API, вы не одиноки. Конфигурация по умолчанию отдаёт приоритет возможностям перед стоимостью, что означает, что вы, вероятно, сжигаете токены на рутинные задачи, которым не нужны дорогие модели.

В этом руководстве рассматриваются шесть ключевых оптимизаций, которые работают вместе, чтобы резко снизить ваши расходы:

  1. Инициализация сессий — перестаньте загружать 50 КБ истории при каждом сообщении
  2. Маршрутизация моделей — используйте Haiku для рутинных задач, Sonnet только когда нужно
  3. Хартбит в Ollama — перенесите проверки хартбита в бесплатный локальный LLM
  4. Лимиты скорости и бюджеты — предотвратите выход из-под контроля автоматизации, сжигающей токены
  5. Шаблоны файлов рабочей области
  6. Кеширование промптов

ПОЧЕМУ ЭТО ВАЖНО
Каждая оптимизация нацелена на другой драйвер расходов. Вместе они приведут вас от $1500+/месяц к $30–50/месяц. Это деньги, которые можно реинвестировать в реальное создание вещей.

Общий итог по затратам

Временной периодДоПосле
Ежедневно$2–3$0.10
Ежемесячно$70–90$3–5
Ежегодно$800+$40–60

Часть 1: Инициализация сессий

ПРОБЛЕМА
Ваш агент загружает 50 КБ истории при каждом сообщении. Это тратит 2–3 млн токенов за сессию и стоит $4 в день. Если вы используете сторонний мессенджинг или интерфейсы без встроенной очистки сессий, эта проблема быстро усугубляется.

Решение

Добавьте это правило инициализации сессий в системный промпт вашего агента. Оно точно говорит вашему агенту, что загружать (и что НЕ загружать) при старте каждой сессии:

ПРАВИЛО ИНИЦИАЛИЗАЦИИ СЕССИИ:
При каждом старте сессии:

  1. Загружайте ТОЛЬКО эти файлы:
    • SOUL.md
    • USER.md
    • IDENTITY.md
    • memory/YYYY-MM-DD.md (если существует)
  2. НЕ загружайте автоматически:
    • MEMORY.md
    • История сессий
    • Предыдущие сообщения
    • Предыдущие выводы инструментов
  3. Когда пользователь спрашивает о предыдущем контексте:
    • Используйте memory_search() по запросу
    • Вытягивайте только релевантный фрагмент с помощью memory_get()
    • Не загружайте весь файл
  4. Обновляйте memory/YYYY-MM-DD.md в конце сессии:
    • Что вы делали
    • Принятые решения
    • Сгенерированные лиды
    • Блокеры
    • Следующие шаги

Это экономит 80% на накладных расходах контекста.

Почему это работает

  • Сессия начинается с 8 КБ вместо 50 КБ
  • История загружается только когда об этом просят
  • Ежедневные заметки становятся вашей реальной памятью
  • Работает с любым интерфейсом — не нужна встроенная очистка сессий

Результаты: до и после

❌ ДО✓ ПОСЛЕ
Размер контекста50 КБ контекста при старте8 КБ контекста при старте
Токены2–3 млн токенов тратится за сессиюЗагружается только нужное
Стоимость$0.40 за сессию$0.05 за сессию
ИсторияРаздутие истории со временемЧистые ежедневные файлы памяти
УправлениеНет управления сессиямиРаботает с любым интерфейсом

Часть 2: Маршрутизация моделей (Model Tiering)

Из коробки OpenClaw обычно использует одну флагманскую модель для всего. Хотя Claude Opus или GPT-5 превосходны, это избыточно для рутинных задач. Velvet Shark и другие эксперты рекомендуют Model Tiering — распределение задач по уровням интеллекта и стоимости.

Концепция Model Tiering

УровеньЗадачиРекомендуемая модельОтносительная стоимость
Frontier (Мозг)Архитектура, сложный код, стратегияClaude Opus / GPT-5100% (База)
Workhorse (Рабочая)Создание контента, рефакторингClaude Sonnet / Gemini Pro~60% дешевле
Utility (Утилиты)Хартбиты, поиск файлов, классификацияGemini Flash / Haikuна 97-99% дешевле

Шаг 1: Обновите вашу конфигурацию (Manual Tiering)

Ваш файл конфигурации OpenClaw находится по адресу:

~/.openclaw/openclaw.json

Добавьте или обновите вашу конфигурацию этими настройками моделей:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-haiku-4-5",
        "fallbacks": [
          "openai/gpt-5.2",
          "deepseek/deepseek-reasoner",
          "google/gemini-3-flash"
        ]
      },
      "models": {
        "anthropic/claude-opus-4-5": { "alias": "opus" },
        "anthropic/claude-sonnet-4-5": { "alias": "sonnet" },
        "anthropic/claude-haiku-4-5": { "alias": "haiku" },
        "google/gemini-3-flash": { "alias": "flash" }
      }
    }
  }
}

Что это дает:

  • Умные Fallbacks: Использование цепочки моделей от разных провайдеров. Если Anthropic недоступен, OpenClaw автоматически переключится на OpenAI или Google, предотвращая остановку агента.
  • Алиасы для команды /model: Вы можете переключаться между уровнями “мозга” прямо в чате. Нужно решить сложную архитектурную задачу? Пишите /model opus. Нужно просто проверить погоду? /model flash.

Шаг 2: Добавьте правила маршрутизации в системный промпт

ПРАВИЛО ВЫБОРА МОДЕЛИ:
По умолчанию: Всегда используйте Haiku
Переключайтесь на Sonnet ТОЛЬКО когда:

  • Архитектурные решения
  • Code review для продакшена
  • Анализ безопасности
  • Сложная отладка/рассуждения
  • Стратегические мультипроектные решения

Если сомневаетесь: Сначала попробуйте Haiku.

Результаты: до и после

❌ ДО✓ ПОСЛЕ
МодельSonnet для всегоHaiku по умолчанию
Стоимость$0.003 за 1К токенов$0.00025 за 1К токенов
ЭффективностьИзбыточно для простых задачПравильная модель для работы
Месячные расходы$50–70/месяц на моделях$5–10/месяц на моделях

Часть 3: Хартбит в Ollama

OpenClaw отправляет периодические проверки хартбита, чтобы убедиться, что ваш агент работает и отвечает. По умолчанию эти проверки используют платный API — что быстро накапливается, если вы запускаете агентов 24/7. Решение? Маршрутизируйте хартбиты в бесплатный локальный LLM через Ollama.

Шаг 1: Установите Ollama

Если у вас ещё не установлен Ollama, скачайте его с ollama.ai или выполните:

# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh
# Затем загрузите лёгкую модель для хартбитов
ollama pull llama3.2:3b

Почему llama3.2:3b?
Она лёгкая (2 ГБ), быстрая и лучше справляется со сложным контекстом, чем 1b для продакшена.

Шаг 2: Настройте OpenClaw для хартбита через Ollama

Обновите вашу конфигурацию в ~/.openclaw/openclaw.json, чтобы маршрутизировать хартбиты в Ollama. Обратите внимание, что Ollama подключается как OpenAI-совместимый провайдер:

{
  "agents": {
    "defaults": {
      "heartbeat": {
        "every": "1h",
        "model": "ollama/llama3.2:3b",
        "target": "last",
        "prompt": "Read HEARTBEAT.md if it exists (workspace context). Follow it strictly. Do not infer or repeat old tasks from prior chats. If nothing needs attention, reply HEARTBEAT_OK."
      }
    }
  },
  "models": {
    "mode": "merge",
    "providers": {
      "ollama": {
        "baseUrl": "http://127.0.0.1:11434/v1",
        "apiKey": "ollama-local",
        "api": "openai-completions",
        "models": [
          {
            "id": "llama3.2:3b",
            "name": "Ollama Llama 3.2 3B",
            "reasoning": false,
            "input": ["text"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 131072,
            "maxTokens": 4096
          }
        ]
      }
    }
  }
}

Опции конфигурации Heartbeat

ОпцияОписание
everyИнтервал между проверками (например, “30m”, “1h”)
modelМодель для хартбита в формате provider/model
targetКуда слать уведомления (last по умолчанию, none или id канала)
promptТекст задания для агента во время хартбита

Ключевые механизмы Heartbeat

  • HEARTBEAT.md: Создайте этот файл в рабочей директории агента. Это ваш «чек-лист», который агент будет читать при каждой проверке. Держите его коротким.
  • HEARTBEAT_OK: Если агенту нечего сообщить, он должен ответить этой фразой. OpenClaw автоматически скроет такой ответ, чтобы не спамить в чат.
  • activeHours: Вы можете ограничить работу хартбитов только дневным временем, добавив activeHours: { "start": "09:00", "end": "22:00" } в конфиг.

Результаты: до и после

❌ ДО✓ ПОСЛЕ
ХартбитыИспользуют платный APIИспользуют бесплатный локальный LLM
Вызовы API48 вызовов/день (каждые 30 мин)Ноль платных вызовов для хартбитов
Стоимость$5–15/месяц$0/месяц
УправлениеСложно контролировать чеклистУправляется через HEARTBEAT.md

Шаг 3: Проверьте, что Ollama запущен

# Убедитесь, что Ollama запущен
ollama serve
# В другом терминале протестируйте модель
ollama run llama3.2:3b "ответь OK"
# Должен быстро ответить "OK" или подобное

Результаты: до и после

❌ ДО✓ ПОСЛЕ
ХартбитыИспользуют платный APIИспользуют бесплатный локальный LLM
ЧастотаОграничена (обычно 30–60 мин)Высокая (хоть каждую минуту / 1440/день)
Стоимость$5–15/месяц (при 48 вызовах/день)$0/месяц (даже при 1440 вызовах/день)
УправлениеСложно контролировать чеклистУправляется через HEARTBEAT.md

Почему это работает

  • Хартбиты переносятся на локальное железо.
  • OpenClaw автоматически фильтрует “пустые” ответы (HEARTBEAT_OK).
  • История сессии не раздувается лишними сообщениями.

Часть 4: Лимиты скорости и контроль бюджета

Даже с маршрутизацией моделей и оптимизированными сессиями, вышедшая из-под контроля автоматизация всё ещё может сжигать токены. Эти лимиты скорости действуют как ограничители, чтобы защитить вас от случайных взрывов расходов.

Добавьте в системный промпт

ЛИМИТЫ СКОРОСТИ:

  • Минимум 5 секунд между вызовами API
  • 10 секунд между веб-поисками
  • Максимум 5 поисков за батч, затем перерыв на 2 минуты
  • Батчьте подобную работу (один запрос для 10 лидов, не 10 запросов)
  • Если получили ошибку 429: ОСТАНОВИТЕСЬ, подождите 5 минут, повторите

ДНЕВНОЙ БЮДЖЕТ: $5 (предупреждение на 75%)
ЕЖЕМЕСЯЧНЫЙ БЮДЖЕТ: $200 (предупреждение на 75%)

ЛимитЧто предотвращает
5 сек между вызовами APIБыстрые запросы, сжигающие токены
10 сек между поискамиДорогие циклы поиска
5 поисков максимум, затем перерывВышедшие из-под контроля исследовательские задачи
Батчьте подобную работу10 вызовов, когда хватило бы 1
Предупреждения о бюджете на 75%Неожиданные счета в конце месяца

Результаты: до и после

❌ ДО✓ ПОСЛЕ
ЛимитыНет лимитов скоростиВстроенный темп
ВызовыАгент делает 100+ вызовов в циклахКонтролируемое, предсказуемое использование
ПоискиПоисковые спирали сжигают $20+ за ночьМаксимальное ежедневное воздействие ограничено
БюджетНет видимости бюджетаПредупреждения до достижения лимитов

Часть 5: Шаблоны файлов рабочей области

Создайте эти файлы в вашей рабочей области. Они предоставляют существенный контекст, который нужен вашему агенту, сохраняя при этом минимизацию следа токенов.

Шаблон SOUL.md

Этот файл определяет ключевые принципы и правила работы вашего агента:

# SOUL.md

[Здесь ваши принципы и правила агента]

Шаблон USER.md

Этот файл предоставляет вашему агенту контекст о вас и ваших целях:

# USER.md
- **Имя:** [ВАШЕ ИМЯ]
- **Часовой пояс:** [ВАШ ЧАСОВОЙ ПОЯС]
- **Миссия:** [ЧТО ВЫ СТРОИТЕ]

# Метрики успеха
- [МЕТРИКА 1]
- [МЕТРИКА 2]
- [МЕТРИКА 3]

Держите в тон
Не поддавайтесь желанию добавить в эти файлы всё подряд. Каждая строка стоит токенов при каждом запросе. Включайте только то, что агенту абсолютно нужно для принятия качественных решений.

Часть 6: Кеширование промптов

90% скидка на переиспользуемый контент

ПРОБЛЕМА
Ваш системный промпт, файлы рабочей области (SOUL.md, USER.md) и справочные материалы отправляются в API с каждым одиночным сообщением. Если ваш системный промпт — 5 КБ и вы делаете 100 вызовов API в неделю, это 500 КБ идентичного текста, который пересылается и переобрабатывается каждую неделю. С Claude вы платите полную цену за каждую копию.

РЕШЕНИЕ
Кеширование промптов (доступно на Claude 3.5 Sonnet и новее) берёт только 10% за кешированные токены при повторном использовании и 25% за запись в кеш. Для статического контента, который вы используете повторно, это снижает затраты на 90%.

Как работает кеширование промптов

Когда вы отправляете контент в Claude:

  1. Первый запрос: Полная цена (1 токен = $0.003)
  2. Claude сохраняет в кеш: Помечен для повторного использования
  3. Последующие запросы (в течение 5 минут): 90% скидка ($0.00003 за токен)

Что это означает
Системный промпт 5 КБ стоит ~$0.015 при первом использовании, затем $0.0015 при каждом повторном использовании. За 100 вызовов/неделю вы экономите ~$1.30/неделю только на системных промптах.

Шаг 1: Определите, что кешировать

✓ КЕШИРОВАТЬ ЭТО❌ НЕ КЕШИРОВАТЬ
Системные промпты (редко меняются)Ежедневные файлы памяти (часто меняются)
SOUL.md (принципы оператора)Последние сообщения пользователя (свежие для каждой сессии)
USER.md (цели и контекст)Выводы инструментов (меняются для каждой задачи)
Справочные материалы (цены, документация, спецификации)
Документация инструментов (редко обновляется)
Шаблоны проектов (стандартные структуры)

Шаг 2: Структура для кеширования

OpenClaw автоматически использует кеширование промптов, когда доступно. Чтобы максимизировать попадания в кеш, сохраняйте статический контент в выделенных файлах:

/workspace/
├── SOUL.md ← Кешируйте это (стабильное)
├── USER.md ← Кешируйте это (стабильное)
├── TOOLS.md ← Кешируйте это (стабильное)
├── memory/
│ ├── MEMORY.md ← Не кешируйте (часто обновляется)
│ └── 2026-02-03.md ← Не кешируйте (ежедневные заметки)
└── projects/
└── [ПРОЕКТ]/REFERENCE.md ← Кешируйте это (стабильная документация)

Реальный пример: Outreach Campaign

Вы запускаете 50 черновиков писем электронной почты в неделю, используя Sonnet (рассуждения + персонализация).

БЕЗ КЕШИРОВАНИЯС КЕШИРОВАНИЕМ (В БАТАХ)
Системный промпт5 КБ × 50 = 250 КБ/неделю1 запись + 49 кешированных
Стоимость промпта$0.75/неделю$0.016/неделю
Черновики50 черновиков × 8 КБ = $1.20/неделю50 черновиков (~50% попаданий в кеш) = $0.60/неделю
Итого$1.95/неделю = $102/месяц$0.62/неделю = $32/месяц
ЭКОНОМИЯ: $70/месяц

Результаты кеширования

❌ ДО✓ ПОСЛЕ
ПромптСистемный промпт отправляется с каждым запросомСистемный промпт кеширован, переиспользуется
Стоимость5 КБ × 100 вызовов = $0.305 КБ × 100 вызовов = $0.003
СтратегияНет стратегии кешированияБатчевание в 5-минутные окна
ПопаданияСлучайные пропуски кеша90% попаданий по статическому контенту
Один проект$50–100/месяц$5–15/месяц
Несколько проектов$300–500/месяц$30–75/месяц

Шаг 3: Включите кеширование в конфигурацию

Обновите ~/.openclaw/openclaw-config.json для включения кеширования промптов:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-haiku-4-5"
      },
      "cache": {
        "enabled": true,
        "ttl": "5m",
        "priority": "high"
      },
      "models": {
        "anthropic/claude-sonnet-4-5": {
          "alias": "sonnet",
          "cache": true
        },
        "anthropic/claude-haiku-4-5": {
          "alias": "haiku",
          "cache": false
        }
      }
    }
  }
}

Примечание
Кеширование наиболее эффективно с Sonnet (задачи рассуждения, где оправданы большие промпты). Эффективность Haiku делает кеширование менее критичным.

Опции конфигурации

ОпцияОписание
cache.enabledtrue/false — Включить кеширование глобально
cache.ttlВремя жизни: “5m” (по умолчанию), “30m” (длинные сессии), “24h”
cache.priority“high” (приоритизировать кеширование), “low” (баланс стоимости/скорости)
models.cachetrue/false для каждой модели — Sonnet рекомендуется, Haiku опционально

Шаг 4: Стратегия попаданий в кеш

Чтобы максимизировать эффективность кеширования:

1. Батчуйте запросы в 5-минутные окна

  • Делайте несколько вызовов API в быстрой последовательности
  • Снижает пропуски кеша между запросами

2. Держите системные промпты стабильными

  • Не обновляйте SOUL.md в середине сессии
  • Изменения инвалидируют кеш; делайте их во время технических окон

3. Организуйте контекст иерархически

  • Основной системный промпт (высший приоритет)
  • Стабильные файлы рабочей области
  • Динамические ежедневные заметки (без кеша)

4. Для проектов: отделяйте стабильное от динамического

  • product-reference.md (стабильное, кешируется)
  • project-notes.md (динамическое, без кеша)
  • Предотвращает инвалидацию кеша от обновлений заметок

Когда НЕ использовать кеширование

  • Задачи Haiku (слишком дешёво для кеширования): Накладные расходы на кеширование перевешивают экономию.
  • Частые изменения промптов: Кеш трешится при каждом изменении, что дороже, чем отправка заново.
  • Разработка и тестирование: Слишком много итераций промптов; кеш постоянно сбрасывается.
  • Маленькие запросы (< 1 КБ): Накладные расходы кеширования перевешивают экономию.

Лучшие практики

  • Кешируйте стабильные системные промпты (SOUL.md, USER.md)
  • Батчуйте запросы в 5-минутные окна
  • Мониторируйте эффективность кеширования (целевая ставка попаданий > 80%)
  • Обновляйте системные промпты во время технических окон
  • Разделяйте стабильные документы от динамических заметок
  • Комбинируйте кеширование с маршрутизацией моделей (Sonnet + кеш = максимальная экономия)
  • Документируйте стратегию кеширования в TOOLS.md для консистентности

Проверка настроек

Проверьте эффективность кеширования с помощью session_status:

openclaw shell session_status
# Ищите метрики кеширования:
# Попадания в кеш: 45/50 (90%)
# Кешированные токены: 225 КБ (vs 250 без кеша)
# Экономия: $0.22 за эту сессию

Или запросите API напрямую:

# Проверьте своё использование за 24 часа
curl https://api.anthropic.com/v1/usage \
  -H "Authorization: Bearer $ANTHROPIC_API_KEY" | jq '.usage.cache'

Метрики для отслеживания

МетрикаЧто она означает
Ставка попаданий в кеш > 80%Стратегия кеширования работает
Кешированные токены < 30% от вводаСистемные промпты слишком большие (обрежьте)
Записи кеша растутСистемные промпты меняются слишком часто (стабилизируйте)
Стоимость сессии снизилась на 50%+Кеширование + маршрутизация моделей работают
Снижение расходов по сравнению с прошлой неделейКеширование работает

Комбинирование всех оптимизаций

Кеширование умножает пользу от предыдущих оптимизаций:

ОптимизацияДоПослеС кешированием
Инициализация сессий (чистый контекст)$0.40$0.05$0.005
Маршрутизация моделей (Haiku по умолчанию)$0.05$0.02$0.002
Хартбит в Ollama$0.02$0$0
Лимиты скорости (батчирование)$0$0$0
Кеширование промптов$0$0-$0.015
ИТОГОВЫЙ КОМБИНИРОВАННЫЙ$0.47$0.07$0.012

Общий результат: $40–60/месяц → $5–15/месяц

Устранение неполадок

Если стоимость снизилась не так, как ожидалось:

ПроблемаРешение
Кеширование не работаетПроверьте, что cache.enabled: true в конфиге
Ставка попаданий в кеш низкаяУвеличьте cache.ttl до 30m для длинных сессий
Проблемы с лимитамиУбедитесь, что правила лимитов есть в системном промпте
Haiku используется для сложных задачПроверьте правила маршрутизации моделей

Финальная верификация настроек

После внесения этих изменений, убедитесь, что всё работает правильно:

# Запустите сессию
openclaw shell
# Проверьте текущий статус
session_status
# Вы должны видеть:
# - Размер контекста: 2–8 КБ (не 50 КБ+)
# - Модель: Haiku (не Sonnet)
# - Хартбит: Ollama/local (не API)
# - Рутинные задачи выполняются без переключения на Sonnet
# - Ежедневные расходы упали до $0.10–0.50

Признаки, что всё работает

  • Размер контекста показывает 2–8 КБ вместо 50 КБ+
  • Основная модель показывает как Haiku
  • Хартбит показывает Ollama/local (не API)
  • Рутинные задачи выполняются без переключения на Sonnet
  • Ежедневные расходы упали до $0.10–0.50

Устранение неполадок

  • Размер контекста всё ещё большой → Проверьте, что правила инициализации сессий есть в системном промпте
  • Всё ещё использует Sonnet → Проверьте конфигурацию openclaw.json и синтакс правил маршрутизации
  • Расходы не снизились → Проверьте, что правила лимитов соблюдаются и используется кеширование
  • Ошибки хартбита → Убедитесь, что Ollama запущен (ollama serve)

Итоговое резюме

Всё готово к развёртыванию. Нет сложной настройки. Никаких скриптов управления файлами. Только умная конфигурация, чёткие правила в системном промпте и бесплатный локальный LLM для хартбитов. Интеллект в промпте, а не в инфраструктуре.

Итоговая экономия
97% снижение затрат: от $1500+/месяц до $30–50/месяц

Основные драйверы
Инициализация сессий, маршрутизация моделей, хартбит в Ollama, кеширование

Время внедрения
~5 минут (редактирование конфига и промпта)

Поддерживаемые модели
Claude 3.5 Sonnet (кеширование), Claude 3.5 Haiku (по умолчанию), Ollama (локальный)

Требуемый опыт
Базовый (редактирование JSON и файлов). Нужен только один раз для настройки.


ScaleUP Media
@mattganzak

Quick Reference Checklist

SESSION INITIALIZATION

  • ☐ Добавьте SESSION INITIALIZATION RULE в системный промпт

MODEL ROUTING

  • ☐ Обновите ~/.openclaw/openclaw.json с псевдонимами моделей
  • ☐ Добавьте MODEL SELECTION RULE в системный промпт

HEARTBEAT TO OLLAMA

  • ☐ Установите Ollama и загрузите llama3.2:3b
  • ☐ Добавьте heartbeat-конфиг с указанием Ollama
  • ☐ Проверьте, что Ollama запущен (ollama serve)

RATE LIMITS & WORKSPACE

  • ☐ Добавьте RATE LIMITS в системный промпт
  • ☐ Создайте SOUL.md с основными принципами
  • ☐ Создайте USER.md с вашей информацией
  • ☐ Проверьте через session_status

Источник: OpenClaw Token Optimization Guide