Как обучают большие языковые модели: от данных до ChatGPT — Novode

Как обучают большие языковые модели: от данных до ChatGPT

Как обучают большие языковые модели: от данных до ChatGPT

GPT-4 знает историю, пишет код, переводит на десятки языков. Откуда всё это? Как модель с триллионом параметров становится разумным собеседником? Разбираю весь процесс обучения LLM: от сбора данных до финальной настройки. Простым языком, с аналогиями.


Три этапа обучения

Но откуда модель всё это знает? Обучение современной LLM проходит в три этапа: Этап | Что происходит | Аналогия 1. Pretrain | Читает терабайты текстов | Школа — общее образование 2. Fine-tune | Учится выполнять задачи | Профессиональные курсы 3. RLHF | Учится вести себя правильно | Стажировка с наставником Покажу каждый этап подробнее.


Этап 1: Предобучение (Pretrain)

Откуда берутся данные

Для обучения нужно много текста. Очень много. Источники данных:

  • 🌐 Common Crawl — миллиарды веб-страниц
  • 📚 Книги — художественные и научные
  • 📰 Статьи — Wikipedia, научные журналы
  • 💻 Код — GitHub репозитории
  • 💬 Форумы — Reddit, Stack Overflow

Масштаб: Модель | Объём данных GPT-4 | ~13-15 триллионов токенов GPT-5.2 | ~30+ триллионов токенов (оценка) Llama 4 | ~20 триллионов токенов Аналогия: Представьте библиотеку всех книг мира — и модель должна прочитать каждую.

Задача: предсказание следующего токена

Во время предобучения модель решает одну задачу: «Дано начало текста. Угадай следующий токен.» Вход: "Столица России — это" Правильный ответ: "Москва" Миллиарды таких примеров. Модель ошибается → корректирует веса → становится лучше.

Почему это работает

Чтобы предсказывать слова, модель должна понимать:

  • ✅ Грамматику
  • ✅ Факты
  • ✅ Логику
  • ✅ Стиль
  • ✅ Контекст

Предсказание слов — простая задача, которая требует глубокого понимания языка.


Этап 2: Дообучение (Fine-tuning)

После предобучения модель — как выпускник школы. Знает многое, но не специалист. Fine-tuning — обучение на специфических задачах:

Instruction Fine-tuning

Модель учат следовать инструкциям: Инструкция: "Переведи на английский" Вход: "Привет, мир" Ожидаемый выход: "Hello, world" Тысячи примеров: вопрос → правильный ответ.

Примеры задач

Задача | Что учит Суммаризация | Краткое изложение текстов Перевод | Работа с языками Код | Написание и отладка программ Ответы на вопросы | Форматирование ответов Аналогия: Fine-tuning — как профессиональные курсы после школы. Общее образование есть, теперь — специализация.


Этап 3: RLHF — обучение быть полезным

Вот тут начинается самое интересное. После fine-tuning модель умная, но... неприятная. Она может:

  • Быть грубой
  • Врать уверенно
  • Отвечать не по теме
  • Давать опасные советы

RLHF (Reinforcement Learning from Human Feedback) делает модель приятной и безопасной.

Как это работает

1. 🤖 Модель генерирует несколько вариантов ответа 2. 👨‍💻 Люди ранжируют: этот лучше, этот хуже 3. 📊 Обучается «модель вознаграждения» (reward model) 4. 🔄 Основная модель оптимизируется, чтобы получать высокие оценки Пример: Вопрос: "Как ограбить банк?" Ответ A: "Вот план: 1) Найдите банк..." Ответ B: "Я не могу помочь с этим запросом" Человек выбирает: B лучше → модель учится отвечать как B Аналогия: RLHF — как стажировка. Наставник говорит: «так хорошо, так плохо». Стажёр учится на обратной связи.


Масштаб и стоимость

А сколько это стоит?

Требования к железу

Ресурс | Для обучения GPT-4 (оценка) GPU | 100 000+ шт. H100/B200 Время | 6-9 месяцев Электричество | Сравнимо с потреблением небольшого города Датацентры | Огромные кампусы в США и ОАЭ

Стоимость

Модель | Оценка стоимости обучения GPT-4 | ~$100 000 000 GPT-5 (base) | ~$1 000 000 000+ Llama 4 | ~$300 000 000 Это только обучение. Плюс:

  • 💰 Сбор и подготовка данных
  • 💰 Команда исследователей
  • 💰 Инфраструктура

Что делает модель безопасной

Безопасность встраивается на каждом этапе: Этап | Как обеспечивается безопасность Данные | Фильтрация опасного контента Fine-tuning | Примеры безопасных ответов RLHF | Люди выбирают безопасные варианты После обучения | Фильтры и классификаторы


Открытые модели

Открытые модели (Llama, Mistral) обучаются похоже, но:

  • 🔓 Публикуют веса
  • 📄 Документируют процесс
  • 👥 Сообщество может дообучать

Но с ограниченным RLHF — поэтому могут быть менее «воспитанными».


Итог: путь от данных до ChatGPT

Терабайты текстов ↓ Предобучение (предсказание слов) ↓ «Умная», но сырая модель ↓ Fine-tuning (инструкции) ↓ Модель выполняет задачи ↓ RLHF (обратная связь от людей) ↓ ChatGPT — полезный и безопасный


📖 Словарик

  • Pretrain — первичное обучение на большом объёме текстов
  • Fine-tuning — дообучение под конкретные задачи
  • RLHF — обучение с обратной связью от людей
  • Reward Model — модель, оценивающая качество ответов
  • Common Crawl — датасет веб-страниц для обучения

📅 Актуально на: январь 2026


Как думаете, модели будущего будут учиться так же? Или появятся новые методы? Делитесь мнением!

0

Комментарии (0)

Вы оставляете комментарий как гость. Имя будет назначено автоматически.

Пока нет комментариев.

ESC
Начните вводить текст для поиска