Как экономить токены

Платить за контекст, а не за воду.

Как не тратить лишнее на Claude. Выбор модели подходит всем — Pro-подписчикам и разработчикам. Разделы про Obsidian и GitHub — для тех кто работает с Claude Code в терминале.

Для кого эта страница

Раздел про выбор модели (Haiku/Sonnet/Opus) — полезен всем кто платит за Claude Pro. Разделы про Obsidian и GitHub — для разработчиков, которые используют Claude Code (терминальный инструмент). Не используешь терминал? Сразу к первому разделу ниже.

① Model routing — главный source экономии

Один проект — три модели. Каждая на своём месте.

Самая частая ошибка — гонять всё через Opus. Он в 5× дороже Sonnet и в 15× дороже Haiku, а на простых задачах ничего не выигрывает. Правило AGINE: модель = инструмент под класс задачи.

Haiku 4.5

$1 / 1M токенов input

Брать когда: массовая обработка (классификация, экстракция, перевод), high-throughput batch jobs, простые трансформации текста.

Не брать когда: сложные многошаговые задачи, рассуждения, генерация архитектуры.

Sonnet 4.6

$3 / 1M токенов input

Брать когда: ежедневный coding, refactoring, документация, средне-сложные tool-use, ~80% задач разработки.

Не брать когда: критические архитектурные решения где нужна глубина (там Opus).

Opus 4.7

$15 / 1M токенов input

Брать когда: критическое мышление, system design, сложные баги где нужен глубокий анализ, важные ревью.

Не брать когда: рутина и массовые задачи (там Sonnet) или batch-обработка (там Haiku).

🎯 AGINE-правило: 70/25/5

70% задач — Sonnet, 25% — Haiku (extraction, классификация), 5% — Opus (только критические решения). Это снижает счёт в 3-4 раза vs «всё через Opus».

② Obsidian = long-term память

Не пересказывай контекст каждую сессию. Сохраняй его.

Каждая новая сессия Claude Code = заново подгружать контекст (что строим, какой стек, какие решения уже приняты). На 20 файлах CLAUDE.md это легко 30k токенов на старте. Решение — Obsidian как vault постоянной памяти, к которой Claude обращается через MCP.

claude-code-memory-setup

Obsidian + Graphify для Claude Code

до 71.5× меньше токенов на сессию

Полный setup: Obsidian vault + knowledge graph + chat-import pipeline. Claude хранит работу проекта как структурированную базу, обращается к нужным частям через MCP — а не загружает всё в начале сессии.

Когда брать: долгие проекты (3+ месяцев), большие codebase, командная работа где знание проекта надо передавать.

lucasrosati/claude-code-memory-setupОткрыть на GitHub

obsidian-skills

Claude Skills для Obsidian

3k+

Claude читает источники (статьи, видео, заметки), извлекает entities/concepts, обновляет cross-references, кладёт в структурированный vault. Vault становится богаче с каждым ingest — это и есть compound memory.

Когда брать: контент-работа, research-проекты, knowledge-base строительство (вот этот лендинг — мечта на этом stack).

SilasMarvin/obsidian-smart-connectionsОткрыть на GitHub

claude-obsidian

LLM Wiki pattern (Karpathy)

Реализация подхода Karpathy: Claude + Obsidian = персональная wiki. Команды /wiki /save /autoresearch автоматически структурируют знание в vault, который растёт нелинейно.

Когда брать: фаундеры/исследователи которые ведут много проектов параллельно.

AgriciDaniel/claude-obsidianОткрыть на GitHub

MCP filesystem-server

Базовый MCP для доступа к vault

Если делаешь свой Obsidian-workflow — без этого MCP не обойтись. Даёт Claude доступ к файлам vault: чтение, поиск, индексация. Connected via .mcp.json в проекте.

Когда брать: любой setup где Claude должен читать и понимать структуру файлов на диске.

modelcontextprotocol/serversОткрыть на GitHub

③ GitHub-скиллы которые режут расход

Чужие готовые оптимизаторы — берём, не изобретаем.

Сообщество Claude Code уже сделало 10+ инструментов для урезания токен-расхода. Каждый закрывает свою точку утечки — ставим только то что подходит твоему workflow, не всё подряд.

claude-token-efficient

One-file CLAUDE.md template

до -40% выходных токенов

Один CLAUDE.md, который инструктирует Claude отвечать терсе. Убирает 'Sure!', 'Great question!', длинные объяснения очевидного. Drop-in: положил файл в проект — заработало.

Когда брать: output-heavy workflows (массовый рефакторинг, генерация документации, большие refactors).

drona23/claude-token-efficientОткрыть на GitHub

token-optimizer

Внешний процесс анализа контекста

Запускается отдельно от Claude (НЕ внутри его контекста — не съедает window). Сканирует историю сессий, находит «ghost tokens» — куски контекста которые ничего не дают, но платятся. Подсказывает что урезать в CLAUDE.md.

Когда брать: когда вижу что счёт растёт, не понимая откуда. Раз в неделю прогон = найдёшь утечки.

alexgreensh/token-optimizerОткрыть на GitHub

awesome-claude-code

Официальный каталог от Anthropic

2k+

Список инструментов, интеграций, фреймворков и ресурсов для Claude Code — поддерживается командой Anthropic. Раздел Token Optimization внутри. Это единственный список где можно не пропустить нужный инструмент.

Когда брать: первый шаг перед стартом — посмотреть что уже сделано до тебя.

anthropics/awesome-claude-codeОткрыть на GitHub

everything-claude-code

Документация по token-optimization

Не библиотека, а .md-документ с разбором: где Claude Code тратит токены (initial context, model responses, retries), как мерить, как урезать. Хороший mental model перед тем как ставить tools.

Когда брать: первый шаг — прочитать чтобы понимать что и где режется.

affaan-m/everything-claude-codeОткрыть на GitHub

④ /compact — самый частый приём экономии

Контекст раздувается незаметно. /compact это фиксит.

Каждое сообщение в сессии накапливается в context window. К середине долгой задачи Claude несёт балласт из промежуточных шагов, исправлений и отладки — платишь за всё это токенами, хотя для следующего шага нужна только суть.

70%

Когда делать /compact

Не ждать 90% — на 90% Claude уже теряет детали начала сессии. 70% = идеальный момент.

~40–60%

Сокращение контекста

/compact убирает промежуточные шаги и отладку, оставляет принятые решения и текущее состояние.

0 потерь

Что не теряется

Все принятые решения, текущий код, задачи в progress. /compact сжимает историю, не удаляет факты.

# Правило AGINE по /compact

→Сессия 2+ часов — /compact каждые 60-90 минут. Длинные сессии (рефакторинг, большая фича) накапливают больше всего балласта.
→Перед новым контекстом — если начинаешь работать с новым файлом или модулем после долгого дебаггинга, сделай /compact сначала.
→После /compact — качество ответов восстанавливается: Claude перестаёт «помнить» ошибочные гипотезы из начала сессии.
→Не /clear, а /compact — /clear удаляет всё. /compact сжимает, сохраняя принятые решения. Используй /clear только когда задача полностью сменилась.

④ Что мы используем в AGINE

Наш реальный setup — без рекламы, как есть.

→Sonnet 4.6 как default для всей разработки (~70% запросов).
→Haiku 4.5 для extraction-агентов в SMM-pipeline (классификация трендов, парсинг JSON ответов).
→Opus 4.7 точечно — только critical decisions (system design, ревью production change).
→Obsidian vault (agine-knowledge) — все решения, баги, фичи, sessions. Claude обращается через filesystem MCP.
→Custom CLAUDE.md — терсе-инструкции, AGINE voice, ссылки на canonical docs внутри vault.
→Subagents (general-purpose / Explore) — для параллельных поисков. Они работают в отдельном контексте и возвращают только summary, экономя главный context.

Месячный бюджет на Claude API в AGINE: ~$80-120 при 6+ часах работы каждый день. Без этих оптимизаций было бы $500+.

Следующий шаг

Оптимизировал токены — теперь автоматизируй контент.

Когда расход под контролем — самое время собрать систему которая ведёт 9 платформ за 2 часа в день.

Content Factory Фишки Claude Code