Тема

Выбор моделей и инструментов

Как выбирать между ChatGPT, Claude, Gemini, Copilot, reasoning-моделями и облачным или локальным запуском.

27 материалов (12 статей · 15 видео)

Начните здесь

Несколько хороших первых материалов перед полной лентой.

6 мин чтения
Статья

ChatGPT, Claude, Gemini, Copilot — что выбрать новичку?

Четыре мейнстримных ИИ-ассистента, разобранные простым языком. Нетехническое руководство по выбору первого ИИ — исходя из того, чем вы уже пользуетесь и чего на самом деле хотите.

Понять идею настолько, чтобы безопасно попробовать её в низкорисковой ситуации.

Новичок в ИИ
7 мин чтения
Статья

Выбираем правильную модель под задачу: шпаргалка по решениям на 2026 год

За какой моделью тянуться, в зависимости от типа задачи. GPT, Claude, Gemini, reasoning-модели и open-weights варианты — отсортированы по тому, в чём они на самом деле сильны, с простыми правилами выбора.

Превратить рабочий процесс в небольшой практический эксперимент с понятной проверкой качества.

Начинающий
10 мин чтения
Статья

Оркестрация нескольких моделей: маршрутизация по стоимости, задержке и качеству

Использовать одну модель для всего — типичная ошибка новичка. Продакшен-системы с AI направляют разные запросы в разные модели и экономят 60–90% бюджета, попутно повышая качество. Паттерны, логика маршрутизации и компромиссы.

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Уверенный

Еще по этой теме

11 мин чтения
Статья

Self-hosted vs hosted инференс: vLLM, TGI и математика точки безубыточности

На каком масштабе self-hosting обгоняет API-вызовы? Реальная математика, операционные реалии и паттерны, отличающие команды, которым стоит хоститься самим, от тех, кому стоит и дальше платить за managed инференс.

Использовать статью как контекст для решений о внедрении, риске, управлении или инвестициях.

Эксперт
12 мин чтения
Статья

Оптимизация стоимости инференса: prompt caching, маршрутизация и контроль выхода

Затраты на LLM-инференс уменьшаются на 60-90% с правильными техниками. Prompt caching, маршрутизация моделей, контроль выхода, батчинг и несколько менее известных паттернов. Числа, паттерны и продакшен-дисциплина, отличающие хорошо организованный инференс от неуправляемого счёта.

Использовать статью как контекст для решений о внедрении, риске, управлении или инвестициях.

Эксперт
13 мин чтения
Статья

Файнтюнинг в 2026 году: когда LoRA выигрывает у RAG и как обойтись без кластера

Файнтюнинг через LoRA стал доступным — можно запустить полноценное обучение на ноутбуке или арендовать GPU на час. Какие паттерны работают, в каких случаях файнтюнинг выигрывает у RAG, и сквозной практический рабочий процесс от подготовки данных до развёртывания.

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Эксперт
12 мин чтения
Статья

Выбор между промптингом, RAG и файнтюнингом (и когда их сочетать)

Промптинг, RAG и файнтюнинг — три главных рычага адаптации LLM под вашу задачу. Каждый правилен для одних задач и неправилен для других. Фреймворк выбора, реалистичные затраты на каждый и продакшен-паттерны, где их сочетание блистает.

Использовать статью как контекст для решений о внедрении, риске, управлении или инвестициях.

Эксперт
13 мин чтения
Статья

Стек LLM в 2026 году: модели, инференс, инструменты и компромиссы

Взгляд практикующего архитектора на стек LLM в 2026 году — уровни моделей, провайдеры инференса, слои оркестрации, инструменты для оценки и компромиссы, которые действительно имеют значение, когда вы запускаете AI в продакшен. Всё, что вы хотели бы услышать до того, как начали.

Использовать статью как контекст для решений о внедрении, риске, управлении или инвестициях.

Эксперт
10 мин чтения
Статья

Локальный AI на вашем Mac: Ollama, LM Studio и что реально умеют 7B-модели

Локальный AI повзрослел. С Ollama или LM Studio и современным Mac можно запускать способные модели офлайн, бесплатно и приватно. Что работает, что нет и в каких сценариях это действительно даёт выигрыш.

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Уверенный
10 мин чтения
Статья

Prompt engineering для reasoning-моделей (o3, R1, Claude extended thinking)

Reasoning-модели — это не быстрые модели с лишними шагами. Они вознаграждают другое промптование, игнорируют часть привычных паттернов и имеют свои подвохи. Практическое руководство по работе с ними.

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Уверенный
10 мин чтения
Статья

Chain-of-thought, self-critique, tree-of-thoughts — когда что использовать

Три техники рассуждений, которые действительно улучшают результаты AI на сложных задачах, — и арифметика их издержек и выгод. С конкретными промптами, сравнениями бок-о-бок и подвохами, которые приносят современные reasoning-модели.

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Уверенный
6 мин чтения
Статья

Бесплатный vs платный ChatGPT: что вы реально получаете за ~€20 в месяц

Сравнение бесплатного ChatGPT, ChatGPT Plus и ChatGPT Pro без жаргона — что меняется при апгрейде и как понять, действительно ли он вам нужен.

Понять идею настолько, чтобы безопасно попробовать её в низкорисковой ситуации.

Новичок в ИИ
32 мин
Видео

Fast LLM Serving with vLLM and PagedAttention

Anyscale. Проходит, почему наивный LLM-serving тратит впустую 60–80% памяти GPU, как PagedAttention заимствует пейджинг в стиле OS, чтобы это починить, и почему continuous batching даёт те самые 24× по throughput, на которые опирается арифметика статьи. После этого фраза статьи «вам повезёт попасть в 50% утилизации» перестаёт казаться абстрактной.
Эксперт
56 мин
Видео

Build Hour: Prompt Caching

OpenAI. Собственный Build Hour OpenAI по prompt caching — порог в 1024 токена, требование стабильности префикса, кеширование аудио с 99% скидкой для realtime, влияние на time-to-first-token на длинных вводах. Полезно, когда вы оцениваете инженерные усилия для надёжного попадания в кеш на ваших продакшен-промптах.
Эксперт
19 мин
Видео

Is This the End of RAG? Anthropic's NEW Prompt Caching

Prompt Engineering. Проходит prompt caching от Anthropic против context caching от Gemini с конкретными сокращениями латентности и стоимости по сценариям (long-document чат, few-shot, multi-turn). Разбивка надбавки за запись в кеш против скидки за чтение из кеша — ровно то, что предполагает статья, говоря, когда кеширование окупается.
Эксперт
59 мин
Видео

Developing an LLM: Building, Training, Finetuning

Sebastian Raschka. Более медленное прохождение Себастьяна Рашки о том, где fine-tuning сидит в более широком пайплайне обучения LLM — instruction-тюнинг, classification fine-tuning, методы экономии параметров и компромиссы, которые статья перечисляет, прежде чем рекомендовать LoRA. Хорошая калибровка перед стартом, особенно если ваша команда обсуждает, является ли fine-tuning вообще правильным шагом.
Эксперт
157 мин
Видео

Fine Tuning LLM Models – Generative AI Course

freeCodeCamp.org. Длинный курс «сначала теория, потом код», покрывающий квантизацию, LoRA, QLoRA и полный PEFT на Llama 2 и Gemma — на железе, которое реально есть у большинства разработчиков. Это самое близкое к опыту «постой рядом с тем, кто это уже делал» на YouTube, и оно совпадает с тезисом статьи «кластер вам не нужен» с конкретными бюджетами по VRAM.
Эксперт
9 мин
Видео

RAG vs. Fine Tuning

IBM Technology. Более плотный фокус на тех двух техниках, которые команды чаще всего путают. Глубже идёт по свежести данных, атрибуции источников и аргументу скорости на инференсе в пользу fine-tuning. Стоит посмотреть, если вы конкретно пытаетесь аргументировать против ненужного fine-tune проекта.
Эксперт
13 мин
Видео

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

IBM Technology. Ясный проход по всем трём техникам на доске с их соответствующими затратами — латентность retrieval, training compute и catastrophic forgetting, ограничения решений только на промптах — и комбинациями, которые реально имеют смысл в продакшене. Заключительный пример с юридической ИИ-системой, использующей все три, — это почти точно аргумент статьи про «когда сочетать».
Эксперт
40 мин
Видео

Andrej Karpathy: Software Is Changing (Again)

Y Combinator. Кейноут Карпатого на AI Startup School рамкует LLM как новый класс компьютера — utility, fab и OS, свёрнутые в одно — и аргументирует «частично автономные» продукты с поводком, контролируемым человеком. Это самая чистая формулировка той ментальной модели стека, которую предполагает статья: что вы выбираете провайдеров инференса и инструменты под программируемую подложку, а не под чат-бота.
Эксперт
211 мин
Видео

Deep Dive into LLMs like ChatGPT

Andrej Karpathy. Самое ясное от и до объяснение на YouTube того, чем на самом деле является LLM — претренинг, токенизация, SFT, RLHF, reasoning RL, использование инструментов, галлюцинации — на уровне детализации, нужном инженеру, чтобы рассуждать о компромиссах между моделями. Посмотрите его один раз, и решения «GPT-класса vs. модели с открытыми весами vs. reasoning-модель» из статьи перестанут казаться выбором бренда и начнут выглядеть как выбор training-рецептов.
Эксперт
9 мин
Видео

RouteLLM achieves 90% GPT4o Quality AND 80% CHEAPER

Matthew Berman. Проходится по статье и коду LMSYS RouteLLM: маленький классификатор сидит перед парой «сильная/слабая модель» и решает, какую вызвать, попадая примерно в 95% качества сильной модели за долю цены. Просмотры под обычным порогом в 100K, но для конкретной ниши «покажи мне реальную маршрутизацию моделей, а не просто сравнения моделей» это самое ясное объяснение на YouTube, и оно напрямую совпадает с секцией статьи про компромисс качество/стоимость.
Уверенный
19 мин
Видео

Every AI Model Explained

Tina Huang. Чистый тур по текущему ландшафту моделей, разбитому по тирам — флагманы, lite-модели, средний тир, специализированные — с конкретными подсказками, на что хорош каждый тир. Это половина статьи «знай свои варианты, прежде чем маршрутизировать», и Хуанг подаёт связку стоимость-vs-возможности так же, как и статья, не опираясь на хайп вокруг бенчмарков.
Уверенный
17 мин
Видео

The New, Smartest AI: Claude 3 – Tested vs Gemini 1.5 + GPT-4

AI Explained. Старее статьи (март 2024), но полезна методология: один аккуратный рецензент прогоняет одни и те же сложные задачи — OCR, теория сознания, следование инструкциям, математика — через три фронтирные модели бок о бок и показывает, ровно где каждая трескается. Имена моделей устарели, фреймворк сравнения — нет.
Начинающий
131 мин
Видео

How I use LLMs

Andrej Karpathy. Карпатый отводит отдельные главы «помните, какой моделью вы пользуетесь, тарифные уровни» и «модели с рассуждениями и когда ими пользоваться», а потом весь оставшийся обзор переключается между ChatGPT, Claude, Gemini, Grok и Perplexity. Это самое близкое к тому, чтобы посмотреть, как шпаргалка из статьи применяется вживую человеком с твёрдыми мнениями о том, когда каждый тариф отрабатывает свои деньги.
Начинающий
19 мин
Видео

Every AI Model Explained

Tina Huang. Спокойная 19-минутная карта основных семейств моделей — линейка GPT от OpenAI, Claude от Anthropic, Gemini от Google плюс игроки из мира open source — и того, какой тариф внутри каждого семейства заслуживает вашего времени. После того как статья говорит вам «выбери одну и держись её месяц», это видео объясняет, что на самом деле предлагает выпадающее меню внутри этой одной. Честно высказанное мнение без перегиба в горячий тейк.
Новичок в ИИ
15 мин
Видео

Is ChatGPT Plus Worth it? Here's My Updated Review for 2025

Ryan Doser. Райан проходит по каждой функции, которая реально ограничена тарифом за $20: лимиты использования, продвинутый голосовой режим, ограничения по изображениям и Sora, кастомные GPT, семейство o1 — и сравнивает их с текущими бесплатными альтернативами вроде Claude, Gemini и Perplexity. Просмотров поменьше, потому что тема узкая, но это самое аккуратное актуальное сравнение бок о бок, которое не растворяется в хайпе, — поэтому мы выбрали его, а не более шумные ролики из серии «Plus изменил мою жизнь».
Новичок в ИИ