GPT-2

Generative Pre-trained Transformer 2 (GPT-2)
원저자	OpenAI
발표일	2019년 2월 14일
저장소	https://github.com/openai/gpt-2
대체한 소프트웨어	GPT-1
대체된 소프트웨어	GPT-3
종류	변환기 언어 모델
라이선스	MIT
웹사이트	openai.com/blog/gpt-2-1-5b-release/

생성적 사전학습 변환기 2(Generative Pre-trained Transformer 2) 즉 GPT-2는 OpenAI에서 만든 인공지능이다. 비지도 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용하였다. 번역과 대화, 작문을 할 수 있으며 단문의 경우 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 힘들다.

2019년 2월^[2]^[3]^[4]^[5] OpenAI에서 만든 오픈 소스 인공 지능 대규모 언어 모델로서 GPT-2는 텍스트를 번역하고, 질문에 답하고, 구절을 요약하고,^[6] 때때로 인간과 구별할 수 없지만^[7] 반복될 수 있는 수준의 텍스트 출력을 생성한다. 범용 학습기이다. 이러한 작업을 수행하도록 특별히 훈련되지 않았으며 이러한 작업을 수행하는 능력은 다음 항목을 임의의 순서로 정확하게 합성하는 일반적인 능력의 확장이다. GPT-2는 OpenAI의 2018 GPT 모델("GPT-1")의 "직접 확장"으로 생성되었으며^[8] 매개변수 수와 훈련 데이터 세트 크기가 모두 10배 증가했다.^[5]

GPT-2는 심층 신경망, 특히 이전의 반복 및 컨볼루션 기반 아키텍처 대신 어텐션을 사용하는 변환기 모델을 구현하는^[8] 사전 훈련된 생성 변환기 아키텍처를 가지고 있다.^[9]^[10] 어텐션 메커니즘을 통해 모델은 가장 관련성이 높은 것으로 예측되는 입력 텍스트 세그먼트에 선택적으로 초점을 맞출 수 있다.^[11]^[12] 이 모델은 병렬화를 크게 증가시키고 RNN/CNN/LSTM 기반 모델에 대한 이전 벤치마크를 능가한다.^[8]

OpenAI는 2019년 11월 GPT-2 언어 모델의 전체 버전(15억 개의 매개변수 포함)을 출시했다.^[13]

↑ “gpt-2”. 《GitHub》. 2023년 3월 13일에 확인함.
↑ Piper, Kelsey (2019년 5월 15일). “A poetry-writing AI has just been unveiled. It's ... pretty good.”. 《Vox》. 2020년 11월 7일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함.
↑ Johnson, Khari (2019년 8월 20일). “OpenAI releases curtailed version of GPT-2 language model”. VentureBeat. 2020년 12월 18일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함.
↑ Vincent, James (2019년 11월 7일). “OpenAI has published the text-generating AI it said was too dangerous to share”. 《The Verge》. 2020년 6월 11일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함.
↑ ^가 ^나 “Better Language Models and Their Implications”. OpenAI. 2019년 2월 14일. 2020년 12월 19일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함.
↑ Hegde, Chaitra; Patil, Shrikumar (2020년 6월 9일). “Unsupervised Paraphrase Generation using Pre-trained Language Models”. arXiv:2006.05477 [cs.CL].
↑ Kaiser, Caleb (2020년 1월 31일). “Too big to deploy: How GPT-2 is breaking servers”. 《Towards Data Science》. 2020년 2월 15일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함.
↑ ^가 ^나 ^다 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018년 6월 11일). “Improving Language Understanding by Generative Pre-Training” (PDF). OpenAI. 12쪽. 2021년 1월 26일에 원본 문서 (PDF)에서 보존된 문서. 2021년 1월 23일에 확인함.
↑ Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017년 6월 12일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].
↑ Olah, Chris; Carter, Shan (2016년 9월 8일). “Attention and Augmented Recurrent Neural Networks”. 《Distill》 1 (9). doi:10.23915/distill.00001. 2020년 12월 22일에 원본 문서에서 보존된 문서. 2021년 1월 22일에 확인함.
↑ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014년 9월 1일). “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473 [cs.CL].
↑ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015년 8월 17일). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025 [cs.CL].
↑ “GPT-2: 1.5B Release”. 《OpenAI》 (영어). 2019년 11월 5일. 2019년 11월 14일에 원본 문서에서 보존된 문서. 2019년 11월 14일에 확인함.

[1] “gpt-2”. 《GitHub》. 2023년 3월 13일에 확인함.

[voxxy2-2] Piper, Kelsey (2019년 5월 15일). “A poetry-writing AI has just been unveiled. It's ... pretty good.”. 《Vox》. 2020년 11월 7일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함.

[vb-3] Johnson, Khari (2019년 8월 20일). “OpenAI releases curtailed version of GPT-2 language model”. VentureBeat. 2020년 12월 18일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함.

[verge2-4] Vincent, James (2019년 11월 7일). “OpenAI has published the text-generating AI it said was too dangerous to share”. 《The Verge》. 2020년 6월 11일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함.

[openai-5] 가 ^나 “Better Language Models and Their Implications”. OpenAI. 2019년 2월 14일. 2020년 12월 19일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함.

[badpaper-6] Hegde, Chaitra; Patil, Shrikumar (2020년 6월 9일). “Unsupervised Paraphrase Generation using Pre-trained Language Models”. arXiv:2006.05477 [cs.CL].

[tds2-7] Kaiser, Caleb (2020년 1월 31일). “Too big to deploy: How GPT-2 is breaking servers”. 《Towards Data Science》. 2020년 2월 15일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함.

[gpt1paper-8] 가 ^나 ^다 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018년 6월 11일). “Improving Language Understanding by Generative Pre-Training” (PDF). OpenAI. 12쪽. 2021년 1월 26일에 원본 문서 (PDF)에서 보존된 문서. 2021년 1월 23일에 확인함.

[attention-9] Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017년 6월 12일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].

[attentionRNNs-10] Olah, Chris; Carter, Shan (2016년 9월 8일). “Attention and Augmented Recurrent Neural Networks”. 《Distill》 1 (9). doi:10.23915/distill.00001. 2020년 12월 22일에 원본 문서에서 보존된 문서. 2021년 1월 22일에 확인함.

[jointly-11] Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014년 9월 1일). “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473 [cs.CL].

[effective-12] Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015년 8월 17일). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025 [cs.CL].

[15Brelease-13] “GPT-2: 1.5B Release”. 《OpenAI》 (영어). 2019년 11월 5일. 2019년 11월 14일에 원본 문서에서 보존된 문서. 2019년 11월 14일에 확인함.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]