A large language model (LLM) is a large (typically at least billions of parameters) neural network trained on language. LLMs are typically pretrained with self-supervised learning on a massive dataset composed mostly of language in the wild, and sometimes further tuned with methods like reinforcement learning from human feedback. Generative pretrained transformers are currently the dominant LLM paradigm, and "GPT" is sometimes used synecdochally to refer to LLMs. LLMs have attracted attention in recent years for their human-level or weakly superhuman performance on many tasks that were previously assumed to be AGI-complete.
โโโโโโโโโโโโโโ LARGE LANGUAGE MODEL ARCHITECTURE โโโโโโโโโโโโโโโโโโ
โ Neural Network Topology & Training Pipeline โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ โ
โ Model Architecture: โ
โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ
โ โ Input Layer โ โ
โ โ โ โ โ
โ โ Embedding โ โ
โ โ โ โ โ
โ โ โญโโโโโโโโโโฎ โ โ
โ โ โAttentionโ โ Self-Attention Blocks โ โ
โ โ โ โ โ โ โ โ (Multiple Layers) โ โ
โ โ โ โ โ โ โ โ โ โ
โ โ โฐโโโโโโโโโโฏ โ โ
โ โ โ โ โ
โ โ Output Layer โ โ
โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ
โ โ
โ Training Pipeline: โ
โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ
โ โ Raw Text โ Tokenization โ Self-Supervised โ โ
โ โ โ โ โ โ โ
โ โ [Data] โ [Tokens] โ [Pre-training] โ โ
โ โ โ โ โ
โ โ [Fine-tuning] โ โ
โ โ โ โ โ
โ โ [RLHF] โ โ
โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ
โ โ
โ Parameter Scale: โ
โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ
โ โ Size โ โ โ
โ โ โ โ GPT-4 โ โ
โ โ โ GPT-3 โ โ โ
โ โ โ GPT-2 โ โ โ โ
โ โ โ GPT โ โ โ โ
โ โ โ โ โ โ
โ โ โโโโโโโโโโโโโโโโโโโโโโ> Time โ โ
โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ
โ โ
โ Task Performance: โ
โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ
โ โ Human Level โ โ โ โ โ โ โ โ โ โ โ
โ โ โ โ โ
โ โ โ Translation โ โ
โ โ โ Reasoning โ โ
โ โ Creation โ โ
โ โ โ โ
โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ
โ โ
โ [Train Model] [Analyze Performance] [Scale Parameters] โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ