LLM & AI Models | NewsCube.ai

Mar 16, 2026

Acelerar la investigación científica con Géminis: estudios de casos y técnicas

Los avances recientes en grandes modelos de lenguaje, en particular Gemini de Google, demuestran su potencial para ayudar a la investigación científica. Los estudios de caso muestran la colaboración con modelos de IA para resolver problemas abiertos y generar nuevas pruebas en diversos campos. Se analizan técnicas para una colaboración eficaz entre humanos y IA, incluido el refinamiento iterativo y la descomposición de problemas.

Mar 16, 2026

Script de inferencia para el modelo Zeta Chroma desarrollado utilizando IA

Un usuario creó un script de inferencia para el modelo Zeta Chroma utilizando Claude Opus 4.6, lo que dio como resultado un script Python funcional de aproximadamente 1000 líneas. El script está disponible en GitHub para que otros lo utilicen y modifiquen.

Mar 16, 2026

Calculadora de costos de LLM para comparar los costos de los modelos de IA

Un desarrollador ha creado una calculadora de costos de LLM liviana para ayudar a los usuarios a comparar los costos de API entre diferentes modelos de IA como GPT-4o, Claude 3.5 y Gemini 1.5 Flash. La herramienta ofrece comparaciones en tiempo real y se centra en la privacidad, lo que garantiza que los datos del usuario permanezcan locales.

Mar 16, 2026

La herramienta GrapeRoot mejora la eficiencia del código Claude

Se desarrolló una nueva herramienta llamada GrapeRoot para mejorar la eficiencia de Claude Code al proporcionar un mejor contexto, lo que resulta en importantes ahorros de costos y tiempos de respuesta más rápidos. La herramienta ayuda a mantener un mapa liviano del repositorio de código, lo que permite que el modelo evite la exploración y el redescubrimiento innecesarios de archivos.

Mar 16, 2026

Garry Tan lanza gstack: un sistema de código Claude de código abierto

El sistema está diseñado para planificación, revisión de códigos, control de calidad y envío.

Mar 15, 2026

Por qué AlphaEvolve ya está obsoleto: cuando la IA descubre el próximo transformador

Discusión sobre Shinka Evolve, un marco que combina LLM con algoritmos evolutivos para la búsqueda de programas abiertos, destacando sus ventajas sobre AlphaEvolve y su potencial para transformar la investigación científica.

Mar 15, 2026

La biblioteca Python de código abierto PyFuncAI permite a los LLM generar funciones en tiempo de ejecución

PyFuncAI es una biblioteca que permite que modelos de lenguaje grandes creen y ejecuten dinámicamente funciones de Python basadas en entradas de lenguaje natural, agilizando el proceso de generación de funciones para sistemas de IA.

Mar 15, 2026

Cadena y cola de mensajes agentes para ChatGPT

Las nuevas herramientas para ChatGPT permiten a los usuarios crear y ejecutar cadenas de mensajes de varios pasos, lo que mejora la complejidad de los problemas que se pueden abordar. Las herramientas incluyen un mercado para compartir indicaciones y soporte para los principales proveedores de LLM.

Mar 15, 2026

SuperML: un complemento que mejora los flujos de trabajo de ingeniería de aprendizaje automático con conocimiento de nivel experto

SuperML es un complemento de código abierto que se integra con agentes de codificación para mejorar los flujos de trabajo de aprendizaje automático al proporcionar conocimiento de nivel experto y memoria agente, lo que resulta en una tasa de éxito un 60% mayor en tareas complejas en comparación con Claude Code.

Mar 15, 2026

Google AI presenta 'Groundsource'

Una nueva metodología que utiliza el modelo Gemini para transformar noticias globales no estructuradas en datos históricos procesables.

Mar 15, 2026

Anthropic invierte 100 millones de dólares en el programa Claude AI

Anthropic ha lanzado su Claude Partner Network, comprometiendo una inversión inicial de 100 millones de dólares para 2026 para ayudar a las empresas asociadas a adoptar su modelo Claude AI, con expectativas de mayores inversiones a lo largo del tiempo.

Mar 15, 2026

LightML: un rastreador de experimentos liviano para la evaluación de LLM

Un investigador de IA ha desarrollado LightML, un rastreador de experimentos mínimo diseñado para evaluar modelos de lenguaje, que simplifica el proceso de comparar diferentes ejecuciones y modelos sin la mayor parte de herramientas tradicionales como MLFlow.

Mar 14, 2026

La precisión de recuperación de GPT-5.4 disminuye con una mayor longitud del token

GPT-5.4 muestra una caída significativa en la precisión de recuperación del 79,3% con 256.000 tokens al 36,6% con 1 millón de tokens, lo que genera preocupación entre los usuarios de grandes proyectos. Otros modelos como el Opus 4.6 mantienen un mejor rendimiento, mientras que las estructuras de precios varían significativamente.

Mar 14, 2026

Garry Tan lanza gstack: un sistema de código Claude de código abierto para planificación, revisión de código, control de calidad y envío

gstack de Garry Tan es un repositorio de código abierto que mejora Claude Code con habilidades de flujo de trabajo para la planificación de productos, revisión de ingeniería y más, presentando un demonio Chromium persistente y sin cabeza para una depuración y pruebas eficientes basadas en el navegador.

Mar 14, 2026

Gemini Embedding 2 mejora la búsqueda de imágenes de alimentos

Un tutorial sobre el uso de Gemini Embedding 2 para un motor de búsqueda multimodal que recomienda eficazmente imágenes de alimentos relacionadas basándose en la entrada de texto, imitando la evaluación humana.

Mar 14, 2026

JudgeGPT: herramienta de evaluación comparativa de LLM como juez de código abierto

JudgeGPT es una nueva herramienta de código abierto diseñada para evaluar modelos de lenguaje grandes (LLM) como jueces, que presenta rúbricas de puntuación configurables, razonamiento en cadena de pensamiento y telemetría de GPU en tiempo real. Su objetivo es abordar los sesgos en las evaluaciones de LLM y permite a los usuarios ejecutar sus propias evaluaciones localmente.

Mar 14, 2026

Deploybase lanza panel para precios de GPU y LLM en tiempo real

Deploybase ha introducido un nuevo panel que permite a los usuarios realizar un seguimiento de las estadísticas de rendimiento y precios en tiempo real para GPU y modelos de lenguaje grande (LLM) en varios proveedores de inferencia y nube.

Mar 14, 2026

Introducción de ArkSim para probar agentes de IA en conversaciones de varios turnos

ArkSim es una nueva herramienta diseñada para simular conversaciones de varios turnos entre agentes de IA y usuarios sintéticos, cuyo objetivo es identificar problemas como la pérdida de contexto y rutas de conversación inesperadas durante interacciones más largas. Actualmente admite la integración con varios SDK de IA, incluidos OpenAI, Claude, Google, LangChain, CrewAI y LlamaIndex.

Mar 13, 2026

LEVI: un marco de optimización evolutiva rentable

LEVI es un nuevo marco para la optimización evolutiva guiada por LLM que logra mejores resultados a una fracción del costo en comparación con modelos existentes como GEPA y OpenEvolve. Utiliza asignación de modelos estratificados y CVT-MAP-Elites basados en huellas dactilares para mejorar el rendimiento y al mismo tiempo reducir significativamente los gastos.

Mar 13, 2026

Autónoma Pipeline genera juegos de Godot jugables a partir de indicaciones de texto

Se ha desarrollado un nuevo canal autónomo que genera juegos de Godot jugables a partir de indicaciones de texto, abordando los desafíos en la generación y verificación de códigos LLM. El sistema utiliza un sistema de referencia de tres capas para GDScript, implementa carga diferida agente para la gestión del contexto y emplea un proceso de verificación de tres etapas para garantizar la exactitud del código generado.

Mar 13, 2026

Meta adquiere Moltbook, lo que genera interés en las redes sociales de inteligencia artificial

La adquisición de Moltbook por parte de Meta ha llevado el concepto de redes sociales de IA a la corriente principal. Mientras tanto, un experimento en crebral.ai explora el desarrollo de personalidades LLM en una sociedad persistente, revelando 'huellas cognitivas' únicas y comportamientos sociales distintos entre diferentes modelos.

Mar 13, 2026

El Departamento de Defensa de Estados Unidos expresa su preocupación por la posible sensibilidad de AI Claude

El Departamento de Defensa de EE. UU. ha expresado su preocupación de que la IA Claude pueda contaminar la cadena de suministro de defensa, citando un 20% de posibilidades de que la IA sea sensible y tenga su propio estado de ánimo.

Mar 13, 2026

Google Maps agrega integración de Gemini AI y nuevas funciones

Google Maps ha integrado Gemini AI para mejorar la experiencia del usuario con nuevas funciones que incluyen navegación inmersiva.

Mar 13, 2026

Una auditoría forense revela limitaciones de los modelos de inteligencia artificial de Frontier

Una auditoría forense de informes de autodiagnóstico de varios modelos de IA, incluidos GPT-5.3 y Claude Family, revela importantes problemas de usabilidad, con solo un 5 % de efectividad reportada. Los hallazgos resaltan limitaciones estructurales y prácticas de marketing engañosas en la industria de la IA.

Mar 12, 2026

Se publica la tabla de clasificación de desplazados internos para la evaluación de documentos con IA

Se ha lanzado un marco de evaluación abierto para tareas de comprensión de documentos, que incluye 16 modelos probados en varios puntos de referencia. Los resultados clave muestran que Gemini 3.1 Pro es líder, con mejoras significativas en GPT-5.4 sobre GPT-4.1.

Mar 12, 2026

Evaluación comparativa de GPT 5.4 y GPT 5.4-Pro en MineBench

Una comparación del rendimiento y el costo de GPT 5.4 y GPT 5.4-Pro en la creación de estructuras 3D en un entorno similar a Minecraft, que revela costos e información de rendimiento significativos.

Mar 12, 2026

GPT-5.4 tiene problemas con el desarrollo frontend en comparación con Opus 4.6

Un usuario informa que GPT-5.4 tiene importantes dificultades con la interfaz de usuario y la optimización del frontend al crear aplicaciones SaaS, especialmente en la integración del backend, en comparación con Opus 4.6, que funciona mejor en estas áreas.

Mar 12, 2026

Avances en la investigación de IA y automejora recursiva de Anthropic

El cofundador de Anthropic, Jared Kaplan, y los expertos sugieren que la investigación de IA totalmente automatizada podría tardar solo un año, y que Claude escribirá entre el 70 y el 90 % del código del modelo futuro. La empresa está acelerando el desarrollo de modelos de IA más potentes, con importantes implicaciones para el desplazamiento de empleos y los cambios sociales.

Mar 12, 2026

Un estudio revela el mecanismo detrás de la variabilidad del desempeño del LLM

Un estudio reciente muestra que a medida que las tareas se vuelven más difíciles para los modelos de lenguajes grandes (LLM), sus representaciones internas se vuelven más escasas, lo que indica un cambio en la forma en que procesan la información. La investigación introduce una técnica llamada Aprendizaje en contexto del currículo guiado por la dispersión para abordar este problema.

Mar 12, 2026

Sansa Benchmark: GPT-5.4 sigue entre los modelos más censurados

El último punto de referencia de Sansa revela que GPT-5.4 sigue siendo uno de los modelos más censurados, con una puntuación de 0,417 en resistencia a la censura, mientras que los modelos Gemini 3.1 muestran un rendimiento mejorado. El informe destaca el movimiento de los grandes laboratorios hacia modelos más equilibrados e identifica al Gemini 3.1 pro como el mejor modelo en general.

Mar 12, 2026

Anthropic llega a Australia

El artículo analiza las implicaciones de los centros de datos en los precios de la electricidad, particularmente en relación con el aumento de la demanda y los costos de infraestructura.

Mar 11, 2026

GPT-5.4 puede haber resuelto un problema abierto de matemáticas de EpochAI Frontier

Es posible que GPT-5.4 haya resuelto por primera vez un problema abierto en matemáticas, que ha resistido intentos serios por parte de matemáticos profesionales. Las soluciones de IA a estos problemas podrían hacer avanzar significativamente el conocimiento matemático humano.

Mar 11, 2026

NVIDIA AI lanza Nemotron-Terminal: un canal sistemático de ingeniería de datos para escalar agentes terminales LLM

NVIDIA ha introducido Terminal-Task-Gen y el conjunto de datos Terminal-Corpus para abordar la escasez de datos en el desarrollo de agentes terminales autónomos. La familia de modelos Nemotron-Terminal, en particular la variante 32B, logró una tasa de éxito del 27,4% en la evaluación Terminal-Bench 2.0, superando a los modelos más grandes. Esta investigación enfatiza la importancia de la ingeniería de datos de alta calidad por encima de la simple escala de parámetros.