GPT-1

生成型预训练变换模型 1
Generative Pre-trained Transformer 1（GPT-1）
原作者	OpenAI
首次发布	2018年2月
当前版本	110M (2018年6月11日);
源代码库	github.com/openai/finetune-transformer-lm;
由…取代	GPT-2
类型	大型语言模型; 基于转换器的生成式预训练模型;
许可协议	MIT
网站	openai.com/blog/gpt-2-1-5b-release/

GPT-1，全称基于转换器的生成式预训练模型1（Generative Pre-trained Transformer 1）是继2017年Google推出Transformer架构后，OpenAI推出的第一个大型语言模型^[3]。2018年，OpenAI发布了一篇名为《通过生成式预训练提高语言理解能力》（Improving Language Understanding by Generative Pre-Training）的论文，其中介绍了该初期模型以及基于转换器的生成式预训练模型的总体概念^[4] 。

在此之前，表现最佳的神经网络自然语言处理模型主要采用依靠大量手动标记数据的监督学习。这种依赖于监督学习的方法限制了它们在未经精细标注的数据集上的应用，并使训练超大模型相当耗时且开支非常昂贵^[5]^[6]；许多语言（例如斯瓦希里语或海地克里奥尔语）由于缺乏能创建起语料库的文本资料，导致模型难以对其进行翻译和解释^[6]。相比之下，GPT采用了“半监督”方法，包含两个阶段：无监督的生成式“预训练”阶段，使用目标函数来设置初始参数；以及有监督的判别式“微调（英语：fine-tuning (machine learning)）”阶段，将这些参数在目标任务上进行微调^[5]。

与之前基于注意力增强的循环神经网络（RNN）技术相比，GPT采用的Transformer架构为模型提供了比循环机制更加结构化的记忆；使其拥有“跨多样任务的稳健传输性能”^[5]。

^ https://huggingface.co/transformers/pretrained_models.html.
^ gpt-2. GitHub. [2023-03-13]. （原始内容存档于2023-03-11）.
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017-06-12. arXiv:1706.03762  [cs.CL].
^ Archived copy. [2023-04-29]. （原始内容存档于2023-04-15）.
^ ^5.0 ^5.1 ^5.2 引用错误：没有为名为gpt1paper的参考文献提供内容
^ ^6.0 ^6.1 引用错误：没有为名为tsvetkov的参考文献提供内容

[wikidata-08fc1215131efe105f0db0ed33a8d5b5abc32dd6-v3-1] ttps://huggingface.co/transformers/pretrained_models.html.

[2] t-2. GitHub. [2023-03-13]. （原始内容存档于2023-03-11）.

[:0-3] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017-06-12. arXiv:1706.03762  [cs.CL].

[4] Archived copy. [2023-04-29]. （原始内容存档于2023-04-15）.

[gpt1paper-5] 5.0 ^5.1 ^5.2 引用错误：没有为名为gpt1paper的参考文献提供内容

[tsvetkov-6] 6.0 ^6.1 引用错误：没有为名为tsvetkov的参考文献提供内容

[1]

[2]

[3]

[4]

[5]

[6]