GPT-2

GPT-2
Información general
Tipo de programa	LLM
Lanzamiento inicial	14 de febrero de 2019
Lanzamientos
Enlaces
	Sitio web oficial Repositorio de código
	[editar datos en Wikidata]

Generative Pre-trained Transformer 2 (GPT-2) es un gran modelo de lenguaje desarrollado por OpenAI y el segundo en su serie fundamental de modelos GPT. GPT-2 fue pre-entrenado en un conjunto de datos de 8 millones de páginas web.^[1] Fue lanzado parcialmente en febrero de 2019, seguido por el lanzamiento completo del modelo de 1500 millones de parámetros el 5 de noviembre de 2019.^[2]^[3]^[4]^[5]^[6]

GPT-2 fue creado como una "escala directa" de GPT-1^[7] con un aumento de diez veces tanto en el número de sus parámetros como en el tamaño de su conjunto de datos de entrenamiento.^[8] Es un aprendiz general y su capacidad para realizar varias tareas fue una consecuencia de su habilidad general para predecir con precisión el siguiente ítem en una secuencia,^[9]^[10] lo que le permitió traducir textos, responder preguntas sobre un tema a partir de un texto, resumir pasajes de un texto más extenso,^[10] y generar texto a un nivel a veces indistinguible del humano,^[11] sin embargo, podía volverse repetitivo o sin sentido al generar pasajes largos.^[12] Fue superado por los modelos GPT-3 y GPT-4, que ya no son de código abierto.

GPT-2, al igual que su predecesor GPT-1 y sus sucesores GPT-3 y GPT-4, tiene una arquitectura de transformador pre-entrenado generativo, implementando una red neuronal profunda, específicamente un modelo de transformador, que utiliza atención en lugar de arquitecturas anteriores basadas en recurrencia y convolución.^[13] Los mecanismos de atención permiten que el modelo se enfoque selectivamente en segmentos del texto de entrada que predice que son los más relevantes.^[14]^[15] Este modelo permite una gran paralelización, y supera los benchmarks anteriores para modelos basados en RNN/CNN/LSTM.^[16]^[17]

↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de febrero de 2019). «Language models are unsupervised multitask learners». OpenAI 1 (8). Archivado desde el original el 6 de febrero de 2021. Consultado el 19 de diciembre de 2020.
↑ Vincent, James (7 de noviembre de 2019). «OpenAI has published the text-generating AI it said was too dangerous to share». The Verge. Archivado desde el original el 11 de junio de 2020. Consultado el 19 de diciembre de 2020.
↑ «GPT-2: 1.5B Release». OpenAI (en inglés). 5 de noviembre de 2019. Archivado desde el original el 14 de noviembre de 2019. Consultado el 14 de noviembre de 2019.
↑ Piper, Kelsey (15 de mayo de 2019). «A poetry-writing AI has just been unveiled. It's ... pretty good.». Vox. Archivado desde el original el 7 de noviembre de 2020. Consultado el 19 de diciembre de 2020.
↑ Johnson, Khari (20 de agosto de 2019). «OpenAI releases curtailed version of GPT-2 language model». VentureBeat. Archivado desde el original el 18 de diciembre de 2020. Consultado el 19 de diciembre de 2020.
↑ «Better Language Models and Their Implications». OpenAI. 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020. Consultado el 19 de diciembre de 2020.
↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junio de 2018). «Improving Language Understanding by Generative Pre-Training». OpenAI. p. 12. Archivado desde el original el 26 de enero de 2021. Consultado el 23 de enero de 2021.
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas openai
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas gpt2paper
↑ ^a ^b Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas badpaper
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas tds2
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas guardian
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas gpt1paper
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas jointly
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas effective
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas attention
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas attentionRNNs

[gpt2paper2-1] Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de febrero de 2019). «Language models are unsupervised multitask learners». OpenAI 1 (8). Archivado desde el original el 6 de febrero de 2021. Consultado el 19 de diciembre de 2020.

[verge22-2] Vincent, James (7 de noviembre de 2019). «OpenAI has published the text-generating AI it said was too dangerous to share». The Verge. Archivado desde el original el 11 de junio de 2020. Consultado el 19 de diciembre de 2020.

[15Brelease2-3] «GPT-2: 1.5B Release». OpenAI (en inglés). 5 de noviembre de 2019. Archivado desde el original el 14 de noviembre de 2019. Consultado el 14 de noviembre de 2019.

[voxxy22-4] Piper, Kelsey (15 de mayo de 2019). «A poetry-writing AI has just been unveiled. It's ... pretty good.». Vox. Archivado desde el original el 7 de noviembre de 2020. Consultado el 19 de diciembre de 2020.

[vb3-5] Johnson, Khari (20 de agosto de 2019). «OpenAI releases curtailed version of GPT-2 language model». VentureBeat. Archivado desde el original el 18 de diciembre de 2020. Consultado el 19 de diciembre de 2020.

[openai2-6] «Better Language Models and Their Implications». OpenAI. 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020. Consultado el 19 de diciembre de 2020.

[gpt1paper3-7] Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junio de 2018). «Improving Language Understanding by Generative Pre-Training». OpenAI. p. 12. Archivado desde el original el 26 de enero de 2021. Consultado el 23 de enero de 2021.

[openai-8] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas openai

[gpt2paper-9] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas gpt2paper

[badpaper-10] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas badpaper

[tds2-11] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas tds2

[guardian-12] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas guardian

[gpt1paper-13] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas gpt1paper

[jointly-14] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas jointly

[effective-15] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas effective

[attention-16] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas attention

[attentionRNNs-17] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas attentionRNNs

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]