๐ŒŽLlm

A large language model (LLM) is a large (typically at least billions of parameters) neural network trained on language. LLMs are typically pretrained with self-supervised learning on a massive dataset composed mostly of language in the wild, and sometimes further tuned with methods like reinforcement learning from human feedback. Generative pretrained transformers are currently the dominant LLM paradigm, and "GPT" is sometimes used synecdochally to refer to LLMs. LLMs have attracted attention in recent years for their human-level or weakly superhuman performance on many tasks that were previously assumed to be AGI-complete.

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ LARGE LANGUAGE MODEL ARCHITECTURE โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚ Neural Network Topology & Training Pipeline                 โ”‚
โ”‚โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”โ”‚
โ”‚                                                            โ”‚
โ”‚ Model Architecture:                                        โ”‚
โ”‚ โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”        โ”‚
โ”‚ โ”‚    Input Layer                                 โ”‚        โ”‚
โ”‚ โ”‚         โ†“                                      โ”‚        โ”‚
โ”‚ โ”‚    Embedding                                   โ”‚        โ”‚
โ”‚ โ”‚         โ†“                                      โ”‚        โ”‚
โ”‚ โ”‚    โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ                                โ”‚        โ”‚
โ”‚ โ”‚    โ”‚Attentionโ”‚ โ† Self-Attention Blocks         โ”‚        โ”‚
โ”‚ โ”‚    โ”‚ โ†• โ†• โ†• โ†• โ”‚    (Multiple Layers)           โ”‚        โ”‚
โ”‚ โ”‚    โ”‚ โ— โ— โ— โ— โ”‚                                โ”‚        โ”‚
โ”‚ โ”‚    โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ                                โ”‚        โ”‚
โ”‚ โ”‚         โ†“                                      โ”‚        โ”‚
โ”‚ โ”‚    Output Layer                                โ”‚        โ”‚
โ”‚ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜        โ”‚
โ”‚                                                            โ”‚
โ”‚ Training Pipeline:                                         โ”‚
โ”‚ โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”        โ”‚
โ”‚ โ”‚ Raw Text โ†’ Tokenization โ†’ Self-Supervised      โ”‚        โ”‚
โ”‚ โ”‚     โ†“           โ†“              โ†“               โ”‚        โ”‚
โ”‚ โ”‚  [Data]  โ†’  [Tokens]  โ†’  [Pre-training]       โ”‚        โ”‚
โ”‚ โ”‚                              โ†“                 โ”‚        โ”‚
โ”‚ โ”‚                         [Fine-tuning]          โ”‚        โ”‚
โ”‚ โ”‚                              โ†“                 โ”‚        โ”‚
โ”‚ โ”‚                           [RLHF]               โ”‚        โ”‚
โ”‚ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜        โ”‚
โ”‚                                                            โ”‚
โ”‚ Parameter Scale:                                          โ”‚
โ”‚ โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”        โ”‚
โ”‚ โ”‚ Size โ”‚                                         โ”‚        โ”‚
โ”‚ โ”‚  โ†‘   โ”‚                    GPT-4                โ”‚        โ”‚
โ”‚ โ”‚      โ”‚              GPT-3 โ—                    โ”‚        โ”‚
โ”‚ โ”‚      โ”‚         GPT-2 โ—    โ†—                   โ”‚        โ”‚
โ”‚ โ”‚      โ”‚    GPT โ—    โ†—                          โ”‚        โ”‚
โ”‚ โ”‚      โ”‚      โ†—                                 โ”‚        โ”‚
โ”‚ โ”‚      โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€> Time             โ”‚        โ”‚
โ”‚ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜        โ”‚
โ”‚                                                            โ”‚
โ”‚ Task Performance:                                          โ”‚
โ”‚ โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”        โ”‚
โ”‚ โ”‚ Human Level โ”€ โ”€ โ”€ โ”€ โ”€ โ”€ โ”€ โ”€ โ”€                  โ”‚        โ”‚
โ”‚ โ”‚         โ†—                                      โ”‚        โ”‚
โ”‚ โ”‚     โ†—     Translation                          โ”‚        โ”‚
โ”‚ โ”‚ โ†—         Reasoning                            โ”‚        โ”‚
โ”‚ โ”‚           Creation                             โ”‚        โ”‚
โ”‚ โ”‚                                                โ”‚        โ”‚
โ”‚ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜        โ”‚
โ”‚                                                            โ”‚
โ”‚ [Train Model] [Analyze Performance] [Scale Parameters]     โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜