В 2022 году ChatGPT собрал 100 миллионов пользователей за 2 месяца — быстрее любого продукта в истории. В 2024-м языковые модели встроены в поисковики, офисные пакеты, IDE и медицинские системы. Но большинство людей по-прежнему воспринимают их как «умный автодополнитель». Реальность значительно интереснее.
Архитектура трансформера
Все современные большие языковые модели (LLM) основаны на архитектуре трансформера, описанной в статье Google Brain 2017 года «Attention Is All You Need». Ключевой механизм — self-attention: модель учится взвешивать важность каждого слова относительно всех других слов в контексте.
В упрощённом виде: для каждого токена (слова или его части) модель вычисляет три вектора — Query (запрос), Key (ключ) и Value (значение). Умножение Query одного токена на Key всех остальных даёт матрицу «внимания» — насколько каждое слово важно для понимания текущего.
Слои таких вычислений (в GPT-4 их десятки) формируют всё более абстрактные представления текста — от морфологии к синтаксису к семантике к прагматике.
Масштаб и эмерджентность
Самое удивительное открытие последних лет: при увеличении масштаба (числа параметров и объёма обучающих данных) у моделей возникают качественно новые способности — которые не предсказывались заранее и не присутствовали у меньших версий. Это называется «эмерджентными свойствами».
Примеры: GPT-3 (175B параметров) не умел решать арифметические задачи с переносом — GPT-4 умеет. Возможность рассуждать о пространстве, решать простые логические задачи, программировать — всё это появилось «само» при достаточном масштабе.
// scale of major LLMs (2024)
Контекстное окно: что изменилось
Ранние трансформеры были ограничены несколькими тысячами токенов (слов) контекста. Gemini 1.5 Pro поддерживает 1 миллион токенов — это примерно 700 000 слов, или несколько крупных романов. Это меняет возможности: модель может анализировать целые кодовые базы, длинные документы, видео.
Что такое RLHF и почему это важно
Предобучение на больших данных создаёт «базовую» модель. Но ей не хватает «согласованности» с человеческими намерениями. RLHF (Reinforcement Learning from Human Feedback) — метод дообучения: люди-оценщики ранжируют ответы модели, на основе этих данных обучается отдельная «награда-модель», и через RL основная модель учится генерировать более предпочтительные ответы.
AGI: когда и что это значит
Искусственный общий интеллект (AGI) — система, способная к произвольным умственным задачам на уровне человека или выше. OpenAI, DeepMind и Anthropic декларируют его создание как цель. Оценки сроков расходятся от «уже в 2027» (Sam Altman) до «неопределённого будущего» (большинство учёных).
Реальная трудность: LLM хорошо обобщают знания из обучения, но плохо справляются с по-настоящему новыми задачами, требующими планирования и причинно-следственного рассуждения. Это принципиальное ограничение текущей архитектуры — или просто вопрос масштаба? Ответа пока нет.