← Back to homepage

Category

LLM & AI Models

Model launches, frontier labs, benchmark shifts, and core model capabilities.

Acelerar la investigación científica con Géminis: estudios de casos y técnicas

Los avances recientes en grandes modelos de lenguaje, en particular Gemini de Google, demuestran su potencial para ayudar a la investigación científica. Los estudios de caso muestran la colaboración con modelos de IA para resolver problemas abiertos y generar nuevas pruebas en diversos campos. Se analizan técnicas para una colaboración eficaz entre humanos y IA, incluido el refinamiento iterativo y la descomposición de problemas.

Calculadora de costos de LLM para comparar los costos de los modelos de IA

Un desarrollador ha creado una calculadora de costos de LLM liviana para ayudar a los usuarios a comparar los costos de API entre diferentes modelos de IA como GPT-4o, Claude 3.5 y Gemini 1.5 Flash. La herramienta ofrece comparaciones en tiempo real y se centra en la privacidad, lo que garantiza que los datos del usuario permanezcan locales.

La herramienta GrapeRoot mejora la eficiencia del código Claude

Se desarrolló una nueva herramienta llamada GrapeRoot para mejorar la eficiencia de Claude Code al proporcionar un mejor contexto, lo que resulta en importantes ahorros de costos y tiempos de respuesta más rápidos. La herramienta ayuda a mantener un mapa liviano del repositorio de código, lo que permite que el modelo evite la exploración y el redescubrimiento innecesarios de archivos.

Cadena y cola de mensajes agentes para ChatGPT

Las nuevas herramientas para ChatGPT permiten a los usuarios crear y ejecutar cadenas de mensajes de varios pasos, lo que mejora la complejidad de los problemas que se pueden abordar. Las herramientas incluyen un mercado para compartir indicaciones y soporte para los principales proveedores de LLM.

Google AI presenta 'Groundsource'

Una nueva metodología que utiliza el modelo Gemini para transformar noticias globales no estructuradas en datos históricos procesables.

La precisión de recuperación de GPT-5.4 disminuye con una mayor longitud del token

GPT-5.4 muestra una caída significativa en la precisión de recuperación del 79,3% con 256.000 tokens al 36,6% con 1 millón de tokens, lo que genera preocupación entre los usuarios de grandes proyectos. Otros modelos como el Opus 4.6 mantienen un mejor rendimiento, mientras que las estructuras de precios varían significativamente.

JudgeGPT: herramienta de evaluación comparativa de LLM como juez de código abierto

JudgeGPT es una nueva herramienta de código abierto diseñada para evaluar modelos de lenguaje grandes (LLM) como jueces, que presenta rúbricas de puntuación configurables, razonamiento en cadena de pensamiento y telemetría de GPU en tiempo real. Su objetivo es abordar los sesgos en las evaluaciones de LLM y permite a los usuarios ejecutar sus propias evaluaciones localmente.

Deploybase lanza panel para precios de GPU y LLM en tiempo real

Deploybase ha introducido un nuevo panel que permite a los usuarios realizar un seguimiento de las estadísticas de rendimiento y precios en tiempo real para GPU y modelos de lenguaje grande (LLM) en varios proveedores de inferencia y nube.

Introducción de ArkSim para probar agentes de IA en conversaciones de varios turnos

ArkSim es una nueva herramienta diseñada para simular conversaciones de varios turnos entre agentes de IA y usuarios sintéticos, cuyo objetivo es identificar problemas como la pérdida de contexto y rutas de conversación inesperadas durante interacciones más largas. Actualmente admite la integración con varios SDK de IA, incluidos OpenAI, Claude, Google, LangChain, CrewAI y LlamaIndex.

LEVI: un marco de optimización evolutiva rentable

LEVI es un nuevo marco para la optimización evolutiva guiada por LLM que logra mejores resultados a una fracción del costo en comparación con modelos existentes como GEPA y OpenEvolve. Utiliza asignación de modelos estratificados y CVT-MAP-Elites basados ​​en huellas dactilares para mejorar el rendimiento y al mismo tiempo reducir significativamente los gastos.

Autónoma Pipeline genera juegos de Godot jugables a partir de indicaciones de texto

Se ha desarrollado un nuevo canal autónomo que genera juegos de Godot jugables a partir de indicaciones de texto, abordando los desafíos en la generación y verificación de códigos LLM. El sistema utiliza un sistema de referencia de tres capas para GDScript, implementa carga diferida agente para la gestión del contexto y emplea un proceso de verificación de tres etapas para garantizar la exactitud del código generado.

Avances en la investigación de IA y automejora recursiva de Anthropic

El cofundador de Anthropic, Jared Kaplan, y los expertos sugieren que la investigación de IA totalmente automatizada podría tardar solo un año, y que Claude escribirá entre el 70 y el 90 % del código del modelo futuro. La empresa está acelerando el desarrollo de modelos de IA más potentes, con importantes implicaciones para el desplazamiento de empleos y los cambios sociales.

Un estudio revela el mecanismo detrás de la variabilidad del desempeño del LLM

Un estudio reciente muestra que a medida que las tareas se vuelven más difíciles para los modelos de lenguajes grandes (LLM), sus representaciones internas se vuelven más escasas, lo que indica un cambio en la forma en que procesan la información. La investigación introduce una técnica llamada Aprendizaje en contexto del currículo guiado por la dispersión para abordar este problema.

Sansa Benchmark: GPT-5.4 sigue entre los modelos más censurados

El último punto de referencia de Sansa revela que GPT-5.4 sigue siendo uno de los modelos más censurados, con una puntuación de 0,417 en resistencia a la censura, mientras que los modelos Gemini 3.1 muestran un rendimiento mejorado. El informe destaca el movimiento de los grandes laboratorios hacia modelos más equilibrados e identifica al Gemini 3.1 pro como el mejor modelo en general.

Anthropic llega a Australia

El artículo analiza las implicaciones de los centros de datos en los precios de la electricidad, particularmente en relación con el aumento de la demanda y los costos de infraestructura.

NVIDIA AI lanza Nemotron-Terminal: un canal sistemático de ingeniería de datos para escalar agentes terminales LLM

NVIDIA ha introducido Terminal-Task-Gen y el conjunto de datos Terminal-Corpus para abordar la escasez de datos en el desarrollo de agentes terminales autónomos. La familia de modelos Nemotron-Terminal, en particular la variante 32B, logró una tasa de éxito del 27,4% en la evaluación Terminal-Bench 2.0, superando a los modelos más grandes. Esta investigación enfatiza la importancia de la ingeniería de datos de alta calidad por encima de la simple escala de parámetros.