GPT-2

Generative Pre-trained Transformer 2 (GPT-2)
원저자OpenAI
발표일2019년 2월 14일(2019-02-14)
저장소https://github.com/openai/gpt-2
대체한 소프트웨어GPT-1
대체된 소프트웨어GPT-3
종류변환기 언어 모델
라이선스MIT[1]
웹사이트openai.com/blog/gpt-2-1-5b-release/

생성적 사전학습 변환기 2(Generative Pre-trained Transformer 2) 즉 GPT-2OpenAI에서 만든 인공지능이다. 비지도 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용하였다. 번역과 대화, 작문을 할 수 있으며 단문의 경우 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 힘들다.

2019년 2월[2][3][4][5] OpenAI에서 만든 오픈 소스 인공 지능 대규모 언어 모델로서 GPT-2는 텍스트를 번역하고, 질문에 답하고, 구절을 요약하고,[6] 때때로 인간과 구별할 수 없지만[7] 반복될 수 있는 수준의 텍스트 출력을 생성한다. 범용 학습기이다. 이러한 작업을 수행하도록 특별히 훈련되지 않았으며 이러한 작업을 수행하는 능력은 다음 항목을 임의의 순서로 정확하게 합성하는 일반적인 능력의 확장이다. GPT-2는 OpenAI의 2018 GPT 모델("GPT-1")의 "직접 확장"으로 생성되었으며[8] 매개변수 수와 훈련 데이터 세트 크기가 모두 10배 증가했다.[5]

GPT-2는 심층 신경망, 특히 이전의 반복 및 컨볼루션 기반 아키텍처 대신 어텐션을 사용하는 변환기 모델을 구현하는[8] 사전 훈련된 생성 변환기 아키텍처를 가지고 있다.[9][10] 어텐션 메커니즘을 통해 모델은 가장 관련성이 높은 것으로 예측되는 입력 텍스트 세그먼트에 선택적으로 초점을 맞출 수 있다.[11][12] 이 모델은 병렬화를 크게 증가시키고 RNN/CNN/LSTM 기반 모델에 대한 이전 벤치마크를 능가한다.[8]

OpenAI는 2019년 11월 GPT-2 언어 모델의 전체 버전(15억 개의 매개변수 포함)을 출시했다.[13]

  1. “gpt-2”. 《GitHub》. 2023년 3월 13일에 확인함. 
  2. Piper, Kelsey (2019년 5월 15일). “A poetry-writing AI has just been unveiled. It's ... pretty good.”. 《Vox》. 2020년 11월 7일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  3. Johnson, Khari (2019년 8월 20일). “OpenAI releases curtailed version of GPT-2 language model”. VentureBeat. 2020년 12월 18일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  4. Vincent, James (2019년 11월 7일). “OpenAI has published the text-generating AI it said was too dangerous to share”. 《The Verge》. 2020년 6월 11일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  5. “Better Language Models and Their Implications”. OpenAI. 2019년 2월 14일. 2020년 12월 19일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  6. Hegde, Chaitra; Patil, Shrikumar (2020년 6월 9일). “Unsupervised Paraphrase Generation using Pre-trained Language Models”. arXiv:2006.05477 [cs.CL]. 
  7. Kaiser, Caleb (2020년 1월 31일). “Too big to deploy: How GPT-2 is breaking servers”. 《Towards Data Science》. 2020년 2월 15일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  8. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018년 6월 11일). “Improving Language Understanding by Generative Pre-Training” (PDF). OpenAI. 12쪽. 2021년 1월 26일에 원본 문서 (PDF)에서 보존된 문서. 2021년 1월 23일에 확인함. 
  9. Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017년 6월 12일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL]. 
  10. Olah, Chris; Carter, Shan (2016년 9월 8일). “Attention and Augmented Recurrent Neural Networks”. 《Distill》 1 (9). doi:10.23915/distill.00001. 2020년 12월 22일에 원본 문서에서 보존된 문서. 2021년 1월 22일에 확인함. 
  11. Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014년 9월 1일). “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473 [cs.CL]. 
  12. Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015년 8월 17일). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025 [cs.CL]. 
  13. “GPT-2: 1.5B Release”. 《OpenAI》 (영어). 2019년 11월 5일. 2019년 11월 14일에 원본 문서에서 보존된 문서. 2019년 11월 14일에 확인함. 

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search