Kimi reemplaza las conexiones residuales con atención en los transformadores
La investigación de Kimi introduce un método para utilizar mecanismos de atención para determinar qué capas en un modelo de transformador son importantes, reemplazando las conexiones residuales tradicionales. Este enfoque muestra una ventaja informática constante de 1,25 veces en varios tamaños de modelo.
Leer noticia completa →