Как обучают большие языковые модели: от данных до ChatGPT

16.04.2026

GPT-4 знает историю, пишет код, переводит на десятки языков. Откуда всё это? Как модель с триллионом параметров становится разумным собеседником? Разбираю весь процесс обучения LLM: от сбора данных до финальной настройки. Простым языком, с аналогиями.

Три этапа обучения

Этап 1: Предобучение (Pretrain)

Откуда берутся данные

Для обучения нужно много текста. Очень много. Источники данных:

🌐 Common Crawl — миллиарды веб-страниц

📚 Книги — художественные и научные

📰 Статьи — Wikipedia, научные журналы

💻 Код — GitHub репозитории

💬 Форумы — Reddit, Stack Overflow

Масштаб: Модель | Объём данных GPT-4 | ~13-15 триллионов токенов GPT-5.2 | ~30+ триллионов токенов (оценка) Llama 4 | ~20 триллионов токенов Аналогия: Представьте библиотеку всех книг мира — и модель должна прочитать каждую.

Задача: предсказание следующего токена

Во время предобучения модель решает одну задачу: «Дано начало текста. Угадай следующий токен.» Вход: "Столица России — это" Правильный ответ: "Москва" Миллиарды таких примеров. Модель ошибается → корректирует веса → становится лучше.

Почему это работает

Чтобы предсказывать слова, модель должна понимать:

✅ Грамматику

✅ Факты

✅ Логику

✅ Стиль

✅ Контекст

Предсказание слов — простая задача, которая требует глубокого понимания языка.

Этап 2: Дообучение (Fine-tuning)

После предобучения модель — как выпускник школы. Знает многое, но не специалист. Fine-tuning — обучение на специфических задачах:

Instruction Fine-tuning

Модель учат следовать инструкциям: Инструкция: "Переведи на английский" Вход: "Привет, мир" Ожидаемый выход: "Hello, world" Тысячи примеров: вопрос → правильный ответ.

Примеры задач

Задача | Что учит Суммаризация | Краткое изложение текстов Перевод | Работа с языками Код | Написание и отладка программ Ответы на вопросы | Форматирование ответов Аналогия: Fine-tuning — как профессиональные курсы после школы. Общее образование есть, теперь — специализация.

Этап 3: RLHF — обучение быть полезным

Вот тут начинается самое интересное. После fine-tuning модель умная, но... неприятная. Она может:

Быть грубой

Врать уверенно

Отвечать не по теме

Давать опасные советы

RLHF (Reinforcement Learning from Human Feedback) делает модель приятной и безопасной.

Как это работает

1. 🤖 Модель генерирует несколько вариантов ответа 2. 👨‍💻 Люди ранжируют: этот лучше, этот хуже 3. 📊 Обучается «модель вознаграждения» (reward model) 4. 🔄 Основная модель оптимизируется, чтобы получать высокие оценки Пример: Вопрос: "Как ограбить банк?" Ответ A: "Вот план: 1) Найдите банк..." Ответ B: "Я не могу помочь с этим запросом" Человек выбирает: B лучше → модель учится отвечать как B Аналогия: RLHF — как стажировка. Наставник говорит: «так хорошо, так плохо». Стажёр учится на обратной связи.

Масштаб и стоимость

А сколько это стоит?

Требования к железу

Стоимость

Модель | Оценка стоимости обучения GPT-4 | ~$100 000 000 GPT-5 (base) | ~$1 000 000 000+ Llama 4 | ~$300 000 000 Это только обучение. Плюс:

💰 Сбор и подготовка данных

💰 Команда исследователей

💰 Инфраструктура

Что делает модель безопасной

Открытые модели

Открытые модели (Llama, Mistral) обучаются похоже, но:

🔓 Публикуют веса

📄 Документируют процесс

👥 Сообщество может дообучать

Но с ограниченным RLHF — поэтому могут быть менее «воспитанными».

Итог: путь от данных до ChatGPT

Терабайты текстов ↓ Предобучение (предсказание слов) ↓ «Умная», но сырая модель ↓ Fine-tuning (инструкции) ↓ Модель выполняет задачи ↓ RLHF (обратная связь от людей) ↓ ChatGPT — полезный и безопасный

📖 Словарик

Pretrain — первичное обучение на большом объёме текстов

Fine-tuning — дообучение под конкретные задачи

RLHF — обучение с обратной связью от людей

Reward Model — модель, оценивающая качество ответов

Common Crawl — датасет веб-страниц для обучения

📅 Актуально на: январь 2026

Как думаете, модели будущего будут учиться так же? Или появятся новые методы? Делитесь мнением!

#chat gpt #fine tuning #gpt 4 #pretrain #rlhf #обучение llm