
rStar-Math, el AlphaGo de las matemáticas 2ye2u
Descripción de rStar-Math, el AlphaGo de las matemáticas 634c
¿Pueden los modelos pequeños mostrar capacidades de razonamiento matemático comparables a o1? En Microsoft creen que sí y nos lo demuestran con un método inspirado en AlphaGo, el sistema que venció a Lee Sedol hace ya casi una década. Hoy en la tertulia vemos modelos de lenguaje pequeños que superan a o1. Participan en la tertulia: Paco Zamora, Íñigo Olcoz, Carlos Larríu, Íñigo Orbegozo y Guillermo Barbadillo. Recuerda que puedes enviarnos dudas, comentarios y sugerencias en: https://twitter.com/TERTUL_ia Más info en: https://ironbar.github.io/tertulia_inteligencia_artificial/ 3o3c36
Este contenido se genera a partir de la locución del audio por lo que puede contener errores.
Pueden los modelos pequeños mostrar capacidades de razonamiento matemático comparables a ó uno en microsoft creen que sí y nos lo demuestran con un método inspirado en alfa alfau el sistema que venció a liceo hace casi ya una década hoy en la tertulia vemos modelos de lenguaje pequeños que superan a uno la tertulia de la inteligencia artificial ya falta menos para la singularidad bienvenidos a la tertulia de la inteligencia artificial hoy contamos aquí tengo a mi izquierda a guillermo barbadillo guillermo qué tal buenas tardes hola carlos gracias por invitarme para imitar menos aquí en aquí también tengo aquí en frente a íñigo olcott que tal íñigo muy buenas qué tal un placer como siempre contamos también con iñigo orbegozo como estas iñigo hola que tal otra vez por aquí y para terminar con paco zamora que lo tengo aquí a mi derecha hola buenas tardes encantado de estar aquí otra vez con tan buena compañía como siempre y este que os habla carlos larry pues bueno hoy el tema va a ir guiándolo guille nos va a hablar sobre un piper tiene bastante buena pinta pero bueno al final nos contará si es oro todo lo que reluce que nos vas a contar oye vale pues yo os voy a hablar hoy sobre un método que se llama restar más y está desarrollado por microsoft la ley y lo que vende este método es que permite que cojamos un modelo de lenguaje pequeño por debajo de siete billones de parámetros y que pueda llegar a rivalizar o incluso a superar en habilidades de razonamiento matemático a modelos como uno que serían los más punteros descontando tres que todavía no no ha salido bale y el matiz que hacen es que consiguen esto sin hacer destilación de un modelo más grande vale porque podríamos entrenar un modelo grandísimo y luego usar ese modelo para destilar ese conocimiento en un modelo más pequeño y aquí dicen que no necesitan hacer eso aunque veremos que no es del todo cierto cuando hablas de destilar con qué te refieres sí bueno destilar es una técnica en la cual entrenamos un modelo que normalmente suele ser más pequeño a partir del conocimiento de un modelo mayor mal entonces es como una manera de estrujar tu tienes un modelo grande que puede ser caro desplegarlo en producción y pues eso lo estrofas intentas transferir todo ese conocimiento he adquirido ese modelo grande a un modelo más pequeño que es más barato en producción vale y probablemente pues o un dominio cuatro homini pues estén entrenados de esa manera tú primero entrenas un modelo muy grande y luego intentas reducir todo lo posible ese tamaño intentando preservar pues la la precisión o la calidad de del modelo original sería algo parecido a un test de student o un método de desistir si es un método que usa destilación eso es vale entonces qué consiguen con este método vale pues cogen un modelo de siete billones de parámetros de cowen de la familia de modelos cowen y este modelo pasa de resolver el cincuenta y ocho por ciento en problemas de matemáticas de nivel de instituto de entre quince y dieciocho años ha pasado el noventa por ciento o sea pasamos de cincuenta y ocho al noventa por ciento vale para compararlo o uno preview consiguió resolver el ochenta y seis por ciento en esta en esta misma base de datos por lo cual sería mejor y o uno resuelven noventa y cinco por ciento no llegaría a tanto pero vemos que consi un una precisión muy muy importante y un modelo todavía más pequeño de la misma familia curwen pero de uno con cinco billones de parámetros pasa del cincuenta por ciento al ochenta y nueve por ciento entonces podemos ver que la mejora es enorme por lo cual pues es interesante ver cómo funciona este método tendremos guía una idea del tamaño de los uno aunque sea así cualitativa ni idea yo leí una estimación que podía estar pues quizás doscientos billones de parámetros porque creo que ya comentamos en algún capítulo anterior el año pasado aunque no se ha publicado pues en base a a latencias de la ha pillado de otros para
Comentarios de rStar-Math, el AlphaGo de las matemáticas 2h3p3e