
5. Build a Large Language Model - Preentrenamiento con datos no etiquetados 6k17x
Descripción de 5. Build a Large Language Model - Preentrenamiento con datos no etiquetados 6q505n
Aprende cómo los modelos de lenguaje aprovechan enormes cantidades de datos no etiquetados para aprender patrones lingüísticos. Exploramos el proceso de preentrenamiento y por qué es fundamental para la inteligencia artificial. 5d5a3h
Este contenido se genera a partir de la locución del audio por lo que puede contener errores.
Hola a todos los beeps bienvenidos a una nueva inmersión profunda quien vid una inteligencia artificial hablando hoy nos adentramos en el mundo de los l esos modelos de lenguaje gigantes que están en todas partes y como muchos de ustedes nos han pedido si vamos a sumergirnos específicamente en el lane esa fase crucial que sienta las bases para el éxito de l m exactamente os hubiese enviado un montón de recursos sobre cómo construir el lens desde cero desde peper de investigación este código fuente un tesoro de información y vamos a diseccionar todo este material para ti vamos a extraer los puntos clave las ideas más relevantes olvídate de pasar horas leyendo tepes densos nosotros te lo resumimos todo en esta inversión profunda imagina que tienes un montón de ladrillos para construir una casa desde el primer inning sería como crear los cimientos entiendo la estructura base que luego te permitirá a construir los muros el tejado me encanta la analogía y la verdad es que construir los cimientos de un elemento es tarea fácil no no lo es por okay estamos hablando de procesar cantidades ingentes de datos para que te hagas una idea si uno de los darás haced que analizaremos hoy a ver ma contiene la friolera de tres millones de tokens tres guiones tres villanas es una barbaridad es una auténtica locura estamos hablando de alimentar al modelo con una biblioteca entera de información y para digerir toda esta información necesitamos una arquitectura potente motor capaz de procesar y comprender el lenguaje a esa escala hola ya ahí es donde entra el transformador el transformador la arquitectura que impulsa la mayoría de los leds modernos verdad a ver refresca mi memoria cómo funciona exactamente esta maravilla de la ingeniería y transformador es una red neuronal sí diseñada específicamente para procesar secuencias de datos como texto todo lo que lo hace especial es su capacidad para analizar las relaciones entre las palabras en una oración incluso si están muy separadas y cómo logra eso tiene algún truco secreto su truco se quedó se llama atención atención imagina que estás depurando código y si no te fijas en todas las líneas por igual te centras en las que son relevantes para el problema que estás intentando solucionar claros como un debugger que prioriza las secciones de código más importante exacto entiendo la atención en el transformador funciona de manera similar el modelo aprende a prestar atención a las pal labras clave en una oración cada incluso si están lejos unas de otras para comprender el significado global fascinante el transformador nos permite procesar grandes cantidades de texto de forma eficiente si comprendiendo las relaciones entre las palabras pero cómo convertimos todo ese texto en algo que el modelo puede entender buena pregunta en numerosos ahí entra la tokenización tokenización básicamente dividimos el texto en unidades más pequeñas que pueden ser palabras o sus palabras y asignamos a cada una un y numérico único es como traducir el lenguaje humano al lenguaje de las máquinas exactamente y una vez que tenemos estos tokens numéricos necesitamos una forma de representarlos de manera significativa para el modelo kelly es donde entran los en weddings extienda central el quinto elemento de nuestro menú a ver explícamelo como si fuera un niño vale qué son exactamente los imbéciles imagina un mapa gigante donde cada palabra tiene su propia ubicación mal palabras con significados similares estarán cerca mientras que palabras con significados opuestos estarán lejos mal entonces feliz y alegre estarían juntitas sí mientras que feliz y triste estarían en lados opuestos del mapa exacto y la belleza de los en behrens que capturan mucho más que solo sinon hemos y antónimos así pueden codificar relaciones complejas entre palabras como rey y esta reina como hombre esta mujer espera espera estás diciendo que los barings pueden aprender analogías eso es increíble no sólo eso qué más también pueden aprender conceptos que el género á pluralidad increíble incluso relaciones temporales sobre aquel modelo no solo sabe qué significa una palabra no sino que también entiende su contexto si sus relaciones con otros podamos queme es como si estuviera construyendo su propio diccionario mental precisamente y todo esto sucede durante el freddy training de modelo analiza millones de textos uno es y millones y a partir de ahí si aprende ubicar cada palabra en este mapa multidimensional que llamamos espacio de behrens entonces los bearings son la clave para que el modelo comprende el significado del lenguaje verdad sin duda sin ella solo estaría manipulando números sin sentido exactamente los solar
Comentarios de 5. Build a Large Language Model - Preentrenamiento con datos no etiquetados 1mi11