Voice Engine y Self-Rewarding LLMs 261h4x

Internet y tecnología

9/4/2024 · 50:37

 0  0

 615

Descargar app

 0  0

 615

La TERTULia de la Inteligencia Artificial

Descripción de Voice Engine y Self-Rewarding LLMs 3t2x4u

¿Sabes que es posible utilizar un modelo de lenguaje como Llama para mejorarse a sí mismo? En el capítulo de hoy vemos como esto es posible y analizamos el reciente anuncio de Voice Engine, la tecnología de OpenAI para clonar la voz. Esto es la tertulia de la inteligencia artificial. Participan en la tertulia: Carlos Larríu, Víctor Goñi, Íñigo Olcoz y Guillermo Barbadillo. Recuerda que puedes enviarnos dudas, comentarios y sugerencias en: https://twitter.com/TERTUL_ia Más info en: https://ironbar.github.io/tertulia_inteligencia_artificial/ Este episodio ha sido patrocinado por Veridas: https://veridas.com/ 1u5w19

openAI

Lee el podcast de Voice Engine y Self-Rewarding LLMs

Este contenido se genera a partir de la locución del audio por lo que puede contener errores.

Sabes que es posible utilizar un modelo de lenguaje como llama para mejorarse a sí mismo en el capítulo de hoy vemos cómo esto es posible y analizamos el reciente anuncio de bois engine la tecnología de oppenheim para clonar la voz esto es la tertulia de la inteligencia artificial la tertulia de la inteligencia artificial bienvenidas bienvenidos a la tertulia de la inteligencia artificial hoy traemos una miscelánea de temas de rabiosa actualidad y para comentarlos estamos algunos de los tertulianos habituales víctor goñi hola buenas tardes gracias por invitarme carlos larrieu estamos con la miscelánea de verdad que tengo que todavía estoy digiriendo la comida de por favor y yo guillermo barbadillo hola a todos y quien les habla y walcott solemos empezar los programas de la tertulia anunciando que ya falta menos para la singularidad pero puede que tengamos ya la singularidad aquí para discutir este tema trae una importante noticia guillermo adelante pues si la singularidad está ya está aquí o por lo menos una proto singularidad es un modelo que se mejor asimismo vale hoy os traigo un trabajo de meta en el cual bueno que se titula el boarding l m s que en español sería pues como modelos de lenguaje que se mejoran a sí mismos vale entonces por ponernos en contexto esto voy a repasar brevemente cómo se entrena un modelo de lenguaje a día de hoy en bali podríamos decir que hay tres etapas primero quizás la más famosa es entrenar el modelo con todos los datos de internet que podamos encontrar vale que es la la más famosa de todas luego vendría un segundo paso en el cual ese modelo pero entrenado lo vamos a ajustar con una tasa bastante más pequeño de preguntas y respuestas y esto es lo que nos permite obtener un asistente porque de la primera parte del entrenamiento cuando tú le haces una pregunta al modelo te puedo responder a esa pregunta o igual empieza a hacer preguntas parecidas a las que has hecho tú o sea simplemente podríamos decir que es un autocompletado pero no es un asistente vale entonces con este segundo paso lo convertimos en un asistente el último paso de todos sería el alinearlo a las preferencias humanas vale en la segunda parte lo hemos hecho una especie de una especie de imitación le damos preguntas y le damos respuestas y aprendió un poco que tiene que responder y con la tercera parte lo que intentamos es que de respuestas que sean útiles y también suelen ser respuestas seguras ya para para lo que quieren los s vale entonces para esta última parte hay dos grandes técnicas y las dos utilizan de las personas entonces podemos tener una pregunta y varias respuestas y hay una persona que va a haber esas respuestas y las va a decir bueno pues les puede dar una puntuación o puedes ir estás mejor estás peor pero pues eso lo normal es que hay una persona que ha juzgado y ya ha valorado esas respuestas vale entonces a partir de esas preferencias humanas lo primero que se hacía cuando salió pete es entrenar un modelo que aprenda cuáles son las preferencias de una persona si le damos una pregunta hay una respuesta pues podría dar pues hasta le doy una puntuación de diez y otra respuesta porque una puntuación de cinco talentos entrenamos un modelo que sepa hacer esos juicios que hace una persona y luego el modelo que queremos que sea el asistente lo lo entrenamos contra ese modelo como si fuera una especie de juego talentos está jugando contra ese modelo y ese modelo le va dando las puntuaciones según las respuestas intenta conseguir la mayor puntuación sí vale pues como pues como con al fago o estos algoritmos de de de refuerzo vale entonces eso era lo que se hacía cuando salió el p pero últimamente se ha visto que se puede hacer algo mucho más sencillo sin necesidad de entrenar un segundo modelo que es básicamente bueno es un método que se llama daily express en su optimización o sea optimizar directamente las personas

Comentarios de Voice Engine y Self-Rewarding LLMs j312h

 Este programa no acepta comentarios anónimos. ¡Regístrate para comentar!