GPT-1

生成型预训练变换模型 1
Generative Pre-trained Transformer 1(GPT-1)
原作者OpenAI
首次发布2018年2月​(2018-02
当前版本
  • 110M (2018年6月11日)[1]
編輯維基數據鏈接
源代码库 編輯維基數據鏈接
由…取代GPT-2
类型
许可协议MIT[2]
网站openai.com/blog/gpt-2-1-5b-release/
原始GPT架构

GPT-1,全称基于转换器的生成式预训练模型1Generative Pre-trained Transformer 1)是继2017年Google推出Transformer架构后,OpenAI推出的第一个大型语言模型[3]。2018年,OpenAI发布了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的论文,其中介绍了该初期模型以及基于转换器的生成式预训练模型的总体概念[4]

在此之前,表现最佳的神经网络自然语言处理模型主要采用依靠大量手动标记数据的监督学习。这种依赖于监督学习的方法限制了它们在未经精细标注的数据集上的应用,并使训练超大模型相当耗时且开支非常昂贵[5][6];许多语言(例如斯瓦希里语海地克里奥尔语)由于缺乏能创建起语料库的文本资料,导致模型难以对其进行翻译和解释[6]。相比之下,GPT采用了“半监督”方法,包含两个阶段:无监督生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式微调英语fine-tuning (machine learning)”阶段,将这些参数在目标任务上进行微调[5]

与之前基于注意力增强的循环神经网络(RNN)技术相比,GPT采用的Transformer架构为模型提供了比循环机制更加结构化的记忆;使其拥有“跨多样任务的稳健传输性能”[5]

  1. ^ https://huggingface.co/transformers/pretrained_models.html.
  2. ^ gpt-2. GitHub. [2023-03-13]. (原始内容存档于2023-03-11). 
  3. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017-06-12. arXiv:1706.03762可免费查阅 [cs.CL]. 
  4. ^ Archived copy. [2023-04-29]. (原始内容存档于2023-04-15). 
  5. ^ 5.0 5.1 5.2 引用错误:没有为名为gpt1paper的参考文献提供内容
  6. ^ 6.0 6.1 引用错误:没有为名为tsvetkov的参考文献提供内容

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search