생성적 사전학습 변환기 2(Generative Pre-trained Transformer 2) 즉 GPT-2는 OpenAI에서 만든 인공지능이다. 비지도 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용하였다. 번역과 대화, 작문을 할 수 있으며 단문의 경우 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 힘들다.
2019년 2월[2][3][4][5] OpenAI에서 만든 오픈 소스 인공 지능 대규모 언어 모델로서 GPT-2는 텍스트를 번역하고, 질문에 답하고, 구절을 요약하고,[6] 때때로 인간과 구별할 수 없지만[7] 반복될 수 있는 수준의 텍스트 출력을 생성한다. 범용 학습기이다. 이러한 작업을 수행하도록 특별히 훈련되지 않았으며 이러한 작업을 수행하는 능력은 다음 항목을 임의의 순서로 정확하게 합성하는 일반적인 능력의 확장이다. GPT-2는 OpenAI의 2018 GPT 모델("GPT-1")의 "직접 확장"으로 생성되었으며[8] 매개변수 수와 훈련 데이터 세트 크기가 모두 10배 증가했다.[5]
GPT-2는 심층 신경망, 특히 이전의 반복 및 컨볼루션 기반 아키텍처 대신 어텐션을 사용하는 변환기 모델을 구현하는[8] 사전 훈련된 생성 변환기 아키텍처를 가지고 있다.[9][10] 어텐션 메커니즘을 통해 모델은 가장 관련성이 높은 것으로 예측되는 입력 텍스트 세그먼트에 선택적으로 초점을 맞출 수 있다.[11][12] 이 모델은 병렬화를 크게 증가시키고 RNN/CNN/LSTM 기반 모델에 대한 이전 벤치마크를 능가한다.[8]
OpenAI는 2019년 11월 GPT-2 언어 모델의 전체 버전(15억 개의 매개변수 포함)을 출시했다.[13]
↑Hegde, Chaitra; Patil, Shrikumar (2020년 6월 9일). “Unsupervised Paraphrase Generation using Pre-trained Language Models”. arXiv:2006.05477 [cs.CL].더 이상 지원되지 않는 변수를 사용함 (도움말)
↑Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014년 9월 1일). “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473 [cs.CL].더 이상 지원되지 않는 변수를 사용함 (도움말)
↑Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015년 8월 17일). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025 [cs.CL].더 이상 지원되지 않는 변수를 사용함 (도움말)