← Back to homepage

Category

LLM & AI Models

Model launches, frontier labs, benchmark shifts, and core model capabilities.

IBM AI udostępnia Granite 4.0 1B Speech jako kompaktowy wielojęzyczny model mowy dla rozwiązań Edge AI i potoków tłumaczeniowych

IBM wprowadził na rynek Granite 4.0 1B Speech, kompaktowy, wielojęzyczny model mowy i języka, zaprojektowany z myślą o efektywnym wdrażaniu w środowiskach o ograniczonych zasobach. Model ma 1 miliard parametrów, obsługuje japoński ASR i jest zoptymalizowany pod kątem różnych zastosowań, w tym interfejsów głosowych i systemów tłumaczenia mowy.

Livnium: nowy klasyfikator NLI wykorzystujący dynamikę atraktorów

Livnium to klasyfikator NLI, który zastępuje tradycyjne mechanizmy uwagi dynamiką atraktora, osiągając 428 razy szybsze wnioskowanie niż BERT i 77% dokładność na SNLI bez użycia transformatorów. Model wykorzystuje sekwencję aktualizacji stanu uwzględniających geometrię, aby zbiegać się z etykietami basenów, demonstrując możliwe do udowodnienia lokalne skurcze i unikalną geometrię sił.

Przyspieszanie badań naukowych dzięki Gemini: studia przypadków i techniki

Niedawne postępy w zakresie dużych modeli językowych, zwłaszcza Gemini firmy Google, pokazują ich potencjał we wspomaganiu badań naukowych. Studia przypadków pokazują współpracę z modelami AI w rozwiązywaniu otwartych problemów i generowaniu nowych dowodów w różnych dziedzinach. Omówiono techniki skutecznej współpracy człowieka i sztucznej inteligencji, w tym iteracyjne udoskonalanie i rozkład problemów.

Kalkulator kosztów LLM do porównywania kosztów modeli AI

Deweloper stworzył lekki kalkulator kosztów LLM, aby pomóc użytkownikom porównać koszty API w różnych modelach AI, takich jak GPT-4o, Claude 3.5 i Gemini 1.5 Flash. Narzędzie oferuje porównania w czasie rzeczywistym i koncentruje się na prywatności, zapewniając, że dane użytkownika pozostają lokalne.

Narzędzie GrapeRoot zwiększa wydajność kodu Claude'a

Opracowano nowe narzędzie o nazwie GrapeRoot, aby poprawić wydajność Claude Code poprzez zapewnienie lepszego kontekstu, co skutkuje znacznymi oszczędnościami kosztów i szybszym czasem reakcji. Narzędzie pomaga utrzymać uproszczoną mapę repozytorium kodu, pozwalając modelowi uniknąć niepotrzebnej eksploracji i ponownego odkrywania plików.

Agentic wyświetla łańcuch i kolejkę dla ChatGPT

Nowe narzędzia ChatGPT pozwalają użytkownikom budować i uruchamiać wieloetapowe łańcuchy podpowiedzi, zwiększając złożoność problemów, które można rozwiązać. Narzędzia obejmują rynek umożliwiający udostępnianie podpowiedzi i wsparcie dla głównych dostawców LLM.

Google AI wprowadza „Groundsource”

Nowa metodologia wykorzystująca model Gemini do przekształcania nieustrukturyzowanych wiadomości globalnych w przydatne dane historyczne.

LightML: lekki moduł śledzący eksperymenty do oceny LLM

Badacz sztucznej inteligencji opracował LightML, narzędzie do śledzenia minimalnych eksperymentów przeznaczone do oceny modeli językowych, które upraszcza proces porównywania różnych przebiegów i modeli bez użycia dużej liczby tradycyjnych narzędzi, takich jak MLFlow.

Dokładność pobierania GPT-5.4 spada wraz ze wzrostem długości tokena

GPT-5.4 wykazuje znaczny spadek dokładności wyszukiwania z 79,3% przy 256 tys. tokenów do 36,6% przy 1 mln tokenów, co budzi obawy użytkowników dużych projektów. Inne modele, takie jak Opus 4.6, zachowują lepszą wydajność, podczas gdy struktury cenowe znacznie się różnią.

JudgeGPT: narzędzie do analizy porównawczej LLM-as-sędziego typu open source

JudgeGPT to nowe narzędzie typu open source przeznaczone do oceny dużych modeli językowych (LLM) w charakterze sędziów, wyposażone w konfigurowalne rubryki punktacji, rozumowanie oparte na łańcuchu myślowym i telemetrię GPU w czasie rzeczywistym. Ma na celu wyeliminowanie uprzedzeń w ocenach LLM i umożliwia użytkownikom przeprowadzanie własnych ocen lokalnie.

Wydano model ColQwen3.5-v2 4.5B

ColQwen3.5-v2 to nowy wizualny model wyszukiwania dokumentów zawierający 4,5 miliarda parametrów, który jest udoskonaleniem w stosunku do swojego poprzednika dzięki prostszej recepturze szkoleniowej i lepszym metrykom wydajności.

Uruchomienie bezpłatnej społecznościowej szafy grającej wykorzystującej generowanie muzyki AI

Deweloper stworzył bezpłatną szafę grającą społeczności, która generuje pełne utwory generowane przez sztuczną inteligencję na podstawie podpowiedzi użytkownika, wykorzystując model MiniMax music-2.5+. Platforma umożliwia użytkownikom wpisywanie podpowiedzi i opcjonalnie dodawanie tekstów, tworzenie utworów z wokalami, tytułami i okładkami albumów. Projekt ma na celu zbadanie możliwości sztucznej inteligencji w tworzeniu muzyki przy jednoczesnym zapewnieniu moderacji treści.

Wprowadzenie ArkSim do testowania agentów AI w rozmowach wieloturowych

ArkSim to nowe narzędzie przeznaczone do symulacji wieloobrotowych rozmów pomiędzy agentami AI a użytkownikami syntetycznymi, mające na celu identyfikację takich problemów, jak utrata kontekstu i nieoczekiwane ścieżki konwersacji podczas dłuższych interakcji. Obecnie obsługuje integrację z różnymi pakietami SDK AI, w tym OpenAI, Claude, Google, LangChain, CrewAI i LlamaIndex.

LEVI: Opłacalne ramy ewolucyjnej optymalizacji

LEVI to nowa platforma optymalizacji ewolucyjnej kierowanej przez LLM, która umożliwia osiągnięcie lepszych wyników za ułamek kosztów w porównaniu z istniejącymi modelami, takimi jak GEPA i OpenEvolve. Wykorzystuje warstwową alokację modeli i CVT-MAP-Elites oparte na odciskach palców, aby zwiększyć wydajność przy jednoczesnym znacznym obniżeniu kosztów.

Autonomiczny potok generuje grywalne gry Godot na podstawie podpowiedzi tekstowych

Opracowano nowy autonomiczny potok, który generuje grywalne gry Godot na podstawie podpowiedzi tekstowych, rozwiązując problemy związane z generowaniem i weryfikacją kodu LLM. System wykorzystuje trójwarstwowy system referencyjny dla GDScript, implementuje agentyczne leniwe ładowanie do zarządzania kontekstem oraz wykorzystuje trzyetapowy proces weryfikacji w celu zapewnienia poprawności wygenerowanego kodu.

Audyt kryminalistyczny ujawnia ograniczenia pionierskich modeli sztucznej inteligencji

Audyt kryminalistyczny raportów autodiagnostycznych z różnych modeli sztucznej inteligencji, w tym GPT-5.3 i rodziny Claude, ujawnia istotne problemy z użytecznością, przy czym zgłoszono jedynie 5% skuteczności. Odkrycia podkreślają ograniczenia strukturalne i zwodnicze praktyki marketingowe w branży sztucznej inteligencji.

NVIDIA wypuszcza Nemotron 3 Super: hybrydowy model Mamba-Attention MoE typu open source o parametrach 120B

Nemotron 3 Super to model open source zawierający 120 miliardów parametrów, opracowany z myślą o zaawansowanym wnioskowaniu wieloagentowym, oferujący 7 razy większą przepustowość i dwukrotnie większą dokładność w porównaniu do swojego poprzednika. Zawiera funkcję „Reasoning Budgets” do kontroli kosztów obliczeniowych i jest w pełni open source dla autonomicznych agentów klasy korporacyjnej.

Tablica liderów IDP udostępniona do oceny AI dokumentów

Uruchomiono otwarte ramy oceny zadań związanych ze zrozumieniem dokumentów, obejmujące 16 modeli przetestowanych w różnych testach porównawczych. Kluczowe wyniki pokazują, że Gemini 3.1 Pro jest liderem, ze znaczną poprawą GPT-5.4 w porównaniu z GPT-4.1.

ColQwen3.5-v1 osiąga SOTA na ViDoRe V1

Model ColQwen3.5-v1, model o 4,5 miliardach parametrów zbudowany na bazie Qwen3.5-4B, osiągnął najwyższe miejsce w rankingu ViDoRe V1 z wynikiem nDCG@5 wynoszącym 0,917. Model został przeszkolony przy użyciu podejścia późnej interakcji i obejmuje fazy twardej eksploracji negatywnej i specjalizacji domenowej w dokumentach finansowych i tabelarycznych. Ciężary modelki są dostępne na stronie Hugging Face i zgłoszono prośbę o pociągnięcie w celu połączenia ulepszeń.

Test porównawczy GPT 5.4 i GPT 5.4-Pro w MineBench

Porównanie wydajności i kosztów GPT 5.4 i GPT 5.4-Pro w tworzeniu struktur 3D w środowisku podobnym do Minecrafta, ujawniające istotne spostrzeżenia dotyczące kosztów i wydajności.

GPT-5.4 ma problemy z rozwojem frontendu w porównaniu do Opus 4.6

Użytkownik zgłasza, że ​​GPT-5.4 ma znaczne trudności z optymalizacją interfejsu użytkownika i frontendu podczas tworzenia aplikacji SaaS, szczególnie w integracji backendu, w porównaniu z Opus 4.6, który radzi sobie lepiej w tych obszarach.

Rekursywne samodoskonalenie i postępy w badaniach nad sztuczną inteligencją firmy Anthropic

Współzałożyciel Anthropic, Jared Kaplan, wraz z ekspertami sugerują, że w pełni zautomatyzowane badania nad sztuczną inteligencją mogą zająć zaledwie rok, a 70–90% przyszłego kodu modelu zostanie napisane przez Claude’a. Firma przyspiesza rozwój wydajniejszych modeli sztucznej inteligencji, co ma istotne konsekwencje dla przenoszenia stanowisk pracy i zmian społecznych.

Badanie ujawnia mechanizm stojący za zmiennością wyników LLM

Niedawne badanie pokazuje, że w miarę jak zadania w przypadku dużych modeli językowych (LLM) stają się coraz trudniejsze, ich wewnętrzne reprezentacje stają się rzadsze, co wskazuje na zmianę w sposobie przetwarzania informacji. Aby rozwiązać ten problem, w badaniu wprowadzono technikę zwaną nauczaniem opartym na programie nauczania opartym na sparsity, nauczaniu kontekstowym.

Sansa Benchmark: GPT-5.4 wciąż wśród najbardziej ocenzurowanych modeli

Najnowszy benchmark Sansy pokazuje, że GPT-5.4 pozostaje jednym z najbardziej cenzurowanych modeli, uzyskując wynik 0,417 w zakresie odporności na cenzurę, podczas gdy modele Gemini 3.1 wykazują lepszą wydajność. W raporcie podkreślono dążenie dużych laboratoriów w kierunku bardziej zrównoważonych modeli i uznano Gemini 3.1 pro za najlepszy model ogólny.

Anthropic przybywa do Australii

W artykule omówiono wpływ centrów danych na ceny energii elektrycznej, szczególnie w związku ze zwiększonym popytem i kosztami infrastruktury.