GPT-2

GPT-2
Información general
Tipo de programa LLM
Lanzamiento inicial 14 de febrero de 2019
Lanzamientos
GPT-1
GPT-2
GPT-3
Enlaces

Generative Pre-trained Transformer 2 (GPT-2) es un gran modelo de lenguaje desarrollado por OpenAI y el segundo en su serie fundamental de modelos GPT. GPT-2 fue pre-entrenado en un conjunto de datos de 8 millones de páginas web.[1]​ Fue lanzado parcialmente en febrero de 2019, seguido por el lanzamiento completo del modelo de 1500 millones de parámetros el 5 de noviembre de 2019.[2][3][4][5][6]

GPT-2 fue creado como una "escala directa" de GPT-1[7]​ con un aumento de diez veces tanto en el número de sus parámetros como en el tamaño de su conjunto de datos de entrenamiento.[8]​ Es un aprendiz general y su capacidad para realizar varias tareas fue una consecuencia de su habilidad general para predecir con precisión el siguiente ítem en una secuencia,[9][10]​ lo que le permitió traducir textos, responder preguntas sobre un tema a partir de un texto, resumir pasajes de un texto más extenso,[10]​ y generar texto a un nivel a veces indistinguible del humano,[11]​ sin embargo, podía volverse repetitivo o sin sentido al generar pasajes largos.[12]​ Fue superado por los modelos GPT-3 y GPT-4, que ya no son de código abierto.

GPT-2, al igual que su predecesor GPT-1 y sus sucesores GPT-3 y GPT-4, tiene una arquitectura de transformador pre-entrenado generativo, implementando una red neuronal profunda, específicamente un modelo de transformador, que utiliza atención en lugar de arquitecturas anteriores basadas en recurrencia y convolución.[13]​ Los mecanismos de atención permiten que el modelo se enfoque selectivamente en segmentos del texto de entrada que predice que son los más relevantes.[14][15]​ Este modelo permite una gran paralelización, y supera los benchmarks anteriores para modelos basados en RNN/CNN/LSTM.[16][17]

Arquitectura de un modelo GPT
  1. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de febrero de 2019). «Language models are unsupervised multitask learners». OpenAI 1 (8). Archivado desde el original el 6 de febrero de 2021. Consultado el 19 de diciembre de 2020. 
  2. Vincent, James (7 de noviembre de 2019). «OpenAI has published the text-generating AI it said was too dangerous to share». The Verge. Archivado desde el original el 11 de junio de 2020. Consultado el 19 de diciembre de 2020. 
  3. «GPT-2: 1.5B Release». OpenAI (en inglés). 5 de noviembre de 2019. Archivado desde el original el 14 de noviembre de 2019. Consultado el 14 de noviembre de 2019. 
  4. Piper, Kelsey (15 de mayo de 2019). «A poetry-writing AI has just been unveiled. It's ... pretty good.». Vox. Archivado desde el original el 7 de noviembre de 2020. Consultado el 19 de diciembre de 2020. 
  5. Johnson, Khari (20 de agosto de 2019). «OpenAI releases curtailed version of GPT-2 language model». VentureBeat. Archivado desde el original el 18 de diciembre de 2020. Consultado el 19 de diciembre de 2020. 
  6. «Better Language Models and Their Implications». OpenAI. 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020. Consultado el 19 de diciembre de 2020. 
  7. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junio de 2018). «Improving Language Understanding by Generative Pre-Training». OpenAI. p. 12. Archivado desde el original el 26 de enero de 2021. Consultado el 23 de enero de 2021. 
  8. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas openai
  9. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas gpt2paper
  10. a b Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas badpaper
  11. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas tds2
  12. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas guardian
  13. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas gpt1paper
  14. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas jointly
  15. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas effective
  16. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas attention
  17. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas attentionRNNs

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search