Большие языковые модели: как они работают и что будет дальше

В 2022 году ChatGPT собрал 100 миллионов пользователей за 2 месяца — быстрее любого продукта в истории. В 2024-м языковые модели встроены в поисковики, офисные пакеты, IDE и медицинские системы. Но большинство людей по-прежнему воспринимают их как «умный автодополнитель». Реальность значительно интереснее.

Архитектура трансформера

Все современные большие языковые модели (LLM) основаны на архитектуре трансформера, описанной в статье Google Brain 2017 года «Attention Is All You Need». Ключевой механизм — self-attention: модель учится взвешивать важность каждого слова относительно всех других слов в контексте.

В упрощённом виде: для каждого токена (слова или его части) модель вычисляет три вектора — Query (запрос), Key (ключ) и Value (значение). Умножение Query одного токена на Key всех остальных даёт матрицу «внимания» — насколько каждое слово важно для понимания текущего.

Слои таких вычислений (в GPT-4 их десятки) формируют всё более абстрактные представления текста — от морфологии к синтаксису к семантике к прагматике.

Масштаб и эмерджентность

Самое удивительное открытие последних лет: при увеличении масштаба (числа параметров и объёма обучающих данных) у моделей возникают качественно новые способности — которые не предсказывались заранее и не присутствовали у меньших версий. Это называется «эмерджентными свойствами».

Примеры: GPT-3 (175B параметров) не умел решать арифметические задачи с переносом — GPT-4 умеет. Возможность рассуждать о пространстве, решать простые логические задачи, программировать — всё это появилось «само» при достаточном масштабе.

// scale of major LLMs (2024)

GPT-4~1.8T параметров (est.)

Нейронная сеть и большие языковые модели

Llama 3 (Meta)70B / 400B

Gemini UltraМультимодальный, ~1T

Claude 3 Opus~Comparable to GPT-4

Mistral LargeOpen source лидер

Контекстное окно: что изменилось

Ранние трансформеры были ограничены несколькими тысячами токенов (слов) контекста. Gemini 1.5 Pro поддерживает 1 миллион токенов — это примерно 700 000 слов, или несколько крупных романов. Это меняет возможности: модель может анализировать целые кодовые базы, длинные документы, видео.

Что такое RLHF и почему это важно

Предобучение на больших данных создаёт «базовую» модель. Но ей не хватает «согласованности» с человеческими намерениями. RLHF (Reinforcement Learning from Human Feedback) — метод дообучения: люди-оценщики ранжируют ответы модели, на основе этих данных обучается отдельная «награда-модель», и через RL основная модель учится генерировать более предпочтительные ответы.

AGI: когда и что это значит

Искусственный общий интеллект (AGI) — система, способная к произвольным умственным задачам на уровне человека или выше. OpenAI, DeepMind и Anthropic декларируют его создание как цель. Оценки сроков расходятся от «уже в 2027» (Sam Altman) до «неопределённого будущего» (большинство учёных).

Реальная трудность: LLM хорошо обобщают знания из обучения, но плохо справляются с по-настоящему новыми задачами, требующими планирования и причинно-следственного рассуждения. Это принципиальное ограничение текущей архитектуры — или просто вопрос масштаба? Ответа пока нет.