Kimi zastępuje resztkowe połączenia uwagą w transformatorach
Badania Kimi wprowadzają metodę wykorzystania mechanizmów uwagi do określenia, które warstwy w modelu transformatora są ważne, zastępując tradycyjne połączenia resztkowe. To podejście pokazuje stałą przewagę obliczeniową 1,25 × w przypadku różnych rozmiarów modeli.
Czytaj pełny news →