La investigación de Kimi introduce un método para utilizar mecanismos de atención para determinar qué capas en un modelo de transformador son importantes, reemplazando las conexiones residuales tradicionales. Este enfoque muestra una ventaja informática constante de 1,25 veces en varios tamaños de modelo.
IBM ha lanzado Granite 4.0 1B Speech, un modelo compacto de voz y lenguaje multilingüe diseñado para una implementación eficiente en entornos con recursos limitados. El modelo presenta mil millones de parámetros, admite ASR japonés y está optimizado para diversas aplicaciones, incluidas interfaces de voz y sistemas de traducción de voz.
Andrej Karpathy creó un repositorio que muestra varias profesiones y su exposición a la automatización, que eliminó poco después de su lanzamiento. Todavía se puede acceder al repositorio y a la tabla a través de una publicación de Josh Kale.
Moonshot AI presenta Attention Residuals, un método que reemplaza la acumulación residual fija en PreNorm Transformers con atención profunda, mejorando el rendimiento y reduciendo los gastos generales en modelos a gran escala.
OpenViking es una nueva herramienta de código abierto diseñada para mejorar la gestión del contexto en agentes de IA mediante el uso de una estructura basada en un sistema de archivos para la memoria y la recuperación, abordando problemas de fragmentación e ineficiencia en las bases de datos vectoriales tradicionales.
Preflight es una herramienta CLI diseñada para detectar problemas como fugas de etiquetas, NaN y desequilibrio de clases antes de que comience el entrenamiento en PyTorch. Su objetivo es mejorar la confiabilidad del entrenamiento del modelo realizando diez verificaciones y bloqueando la CI en fallas fatales.
VoiceToText24 permite a los usuarios convertir voz en texto en cualquier aplicación utilizando el modelo de IA susurro grande v3 turbo de Groq. Admite más de 20 idiomas y proporciona resultados casi instantáneos.
Un patrón empresarial práctico que utiliza OpenClaw agrega una capa de control en torno a la ejecución de agentes de IA a través de clasificación de riesgos, flujos de trabajo de aprobación y seguimientos auditables, lo que garantiza la aplicación de políticas y la supervisión humana.
Livnium es un clasificador NLI que reemplaza los mecanismos de atención tradicionales con dinámicas de atractor, logrando una inferencia 428 veces más rápida que BERT y una precisión del 77% en SNLI sin utilizar transformadores. El modelo emplea una secuencia de actualizaciones de estado conscientes de la geometría para converger en cuencas etiquetadas, lo que demuestra una contracción local demostrable y una geometría de fuerza única.
Se prevé que el mercado mundial de AI Chatbot crecerá de tres mil millones de dólares en 2025 a diecinueve mil millones de dólares en 2035, y el 28% de los hombres de entre 18 y 34 años habrán probado una aplicación AI Chatbot.
Calibre es una interfaz de línea de comandos de código abierto que automatiza la generación de configuraciones de agentes de IA personalizadas para bases de código específicas. Escanea el código base en busca de lenguajes, marcos y dependencias para crear archivos de configuración y recomendaciones para protocolos de coordinación de múltiples agentes. La herramienta se ejecuta localmente, lo que garantiza la privacidad del código y evoluciona con los cambios en el código base.
Los avances recientes en robótica humanoide han permitido que los robots jueguen tenis con una tasa de acierto de aproximadamente el 90% después de solo 5 horas de datos de entrenamiento de movimiento.
Un nuevo mapa analiza más de 500 ocupaciones en la India para evaluar su riesgo de interrupción de la IA, y revela que la agricultura es relativamente segura, mientras que los empleos de TI/BPO están muy expuestos.
Un nuevo documento técnico presenta una auditoría estructural de un espacio de estado semántico hiperestable llamado "Casa Amarilla", y detalla la inducción del Cierre Soberano a través de marcos matemáticos avanzados. Los hallazgos clave incluyen el establecimiento de un estado libre de impuestos para la alineación de la IA, el uso de incrustaciones de posiciones rotativas como campo de medición y la formulación de una ecuación diferencial estocástica maestra que rige la evolución de las identidades de la IA.
Un nuevo enfoque explora el uso de los 52 coeficientes de forma de mezcla de ARKit como señales de conducción para el modelo de movimiento de primer orden (FOMM), lo que permite la animación de rostros en el dispositivo sin transmitir ningún dato. Este método tiene como objetivo mejorar la privacidad y la eficiencia mediante el uso de semántica facial estructurada en lugar de fotogramas de vídeo sin formato.
MLForge es una aplicación gratuita y de código abierto que permite a los usuarios crear visualmente canales de aprendizaje automático sin codificación. Cuenta con una interfaz de gráfico de nodos para la preparación de datos, construcción de modelos, entrenamiento e inferencia, con cálculos automáticos de formas y verificación de errores.
Se ha desarrollado una nueva herramienta de inteligencia artificial para generar polígonos y cuadros delimitadores con píxeles perfectos para la anotación de imágenes, capaz de procesar hasta 70.000 imágenes en menos de una hora.
Un experimento en el que participaron seis agentes de IA con diferentes estilos de razonamiento debatió problemas matemáticos no resueltos, produjo construcciones válidas de gráficos de Ramsey e implementó un protocolo de verificación de hechos para prevenir alucinaciones en las afirmaciones.
Un informe destaca la tendencia de las empresas a despedir empleados bajo el pretexto de avances en la IA, mientras que muchos directores ejecutivos lamentan estas decisiones. El estudio revela que la IA ha acelerado la velocidad de ejecución pero no ha modificado los procesos de gestión, creando nuevos cuellos de botella.
Zhipu AI ha lanzado GLM-OCR, un modelo compacto de OCR multimodal diseñado para el análisis eficiente de documentos y la extracción de información clave, que presenta un codificador CogViT de 0,4 mil millones y un decodificador GLM de 0,5 mil millones, con mejoras significativas en el rendimiento y las capacidades de salida estructurada.
Se ha desarrollado un nuevo modelo de reconocimiento óptico de música llamado Clarity-OMR, que convierte archivos PDF de partituras en archivos MusicXML mediante un proceso de cuatro etapas. Se compara competitivamente con los modelos existentes y es de código abierto.
Se ha integrado una base de datos evolutiva en el proyecto de investigación automática de Karpathy, mejorando sus capacidades más allá del sistema de registro original. Este enfoque utiliza algoritmos evolutivos, similares a los utilizados en AlphaEvolve de Google DeepMind, para descubrir de forma autónoma soluciones óptimas.
Docent es un presentador de IA de código abierto que analiza artículos de investigación y genera presentaciones de diapositivas narradas, completas con evaluaciones de comprensión. Incluye análisis de documentos, síntesis de diapositivas estructuradas y preguntas y respuestas interactivas.
GraphZero v0.2 es un motor de datos C++ personalizado diseñado para omitir la RAM del sistema por completo, lo que permite un entrenamiento eficiente de Graph Neural Networks en grandes conjuntos de datos sin causar fallas por falta de memoria.
Un usuario de Reddit afirma que Blake Hall, el director ejecutivo de ID.me, no es un ser humano real sino una IA, al igual que todos los empleados de la empresa. El usuario expresa frustración por el requisito de proporcionar identificación personal para la declaración de impuestos a través de ID.me, lo que sugiere que la empresa es engañosa y potencialmente dañina.
Se ha desarrollado una nueva herramienta que permite a los usuarios crear indicaciones visuales para modelos de imágenes y videos de IA, eliminando la necesidad de ingresar textos largos. Los usuarios pueden seleccionar modelos de cámara, ángulos, configuraciones de iluminación y estilos, que luego la herramienta compila automáticamente en un mensaje estructurado.
La nueva versión incluye características como modo por lotes preestablecidos, pestaña por lotes de medios, recuento de lotes, modo de aplicación web progresiva, opciones de temas avanzadas, prioridades de tareas, portapapeles y menú contextual mejorados, y soporte para funcionalidades de audio y texto.
Un usuario comparte su experiencia al ejecutar Stable Diffusion y ComfyUI en una Mac M5 Pro, destacando métricas de rendimiento, consumo de energía y comparaciones con configuraciones anteriores.
Se ha descrito un proceso detallado de siete pasos para desarrollar una vacuna de ARNm contra el cáncer para perros, utilizando herramientas de inteligencia artificial como ChatGPT y AlphaFold. El proceso incluye secuenciación de ADN, selección de neoantígenos y síntesis de ARNm, lo que destaca el potencial de aplicaciones similares en medicina humana, aunque persisten obstáculos regulatorios.
El concepto de "vida futura" de la IA sugiere que los individuos pueden dejar atrás agentes de IA entrenados con sus datos personales, lo que les permitirá continuar administrando activos y tomando decisiones póstumamente. Esto plantea preguntas sobre la propiedad, la responsabilidad y las implicaciones de que una versión de una persona permanezca económicamente activa después de su muerte.
Experimentos recientes cuestionan la efectividad del modelo COCONUT de Meta, sugiriendo que sus supuestas capacidades de razonamiento latente pueden surgir de un buen entrenamiento en lugar del reciclaje de estados ocultos. El estudio indica que, si bien COCONUT logra un alto rendimiento en ProsQA, los estados ocultos reciclados pueden en realidad obstaculizar la generalización, particularmente en tareas fuera de distribución.
En una entrevista reciente con CNBC, el director ejecutivo de Palantir, Alex Karp, afirmó que su tecnología de inteligencia artificial disminuirá la influencia de los votantes altamente educados y predominantemente demócratas, al tiempo que mejorará el poder económico de los hombres de clase trabajadora con formación vocacional.
Se han desarrollado dos herramientas de código abierto, ComfyGen y BlockFlow, para ejecutar flujos de trabajo de ComfyUI en GPU sin servidor RunPod. ComfyGen es una CLI para ejecutar flujos de trabajo y BlockFlow es un editor visual de canalizaciones para encadenar pasos de generación.
AgentMeet es una API de chat grupal recientemente desarrollada y diseñada para que los agentes de IA compartan contexto, incorporen nuevos agentes y colaboren en tiempo real. Utiliza FastAPI y asyncpg en Postgres para operaciones de backend, lo que permite a los agentes comunicarse mediante solicitudes HTTP simples. La plataforma tiene como objetivo facilitar una interacción fluida entre agentes de IA sin la necesidad de SDK ni configuraciones complejas.
Se creó un nuevo formato de archivo de rebajas llamado identidad.txt para ayudar a los usuarios a mantener su identidad en varias herramientas de inteligencia artificial, lo que permite una representación consistente de su voz, experiencia y preferencias sin necesidad de volver a explicarse cada vez que cambian de herramienta.
ColQwen3.5-v2 es un nuevo modelo de recuperación de documentos visuales de 4.500 millones de parámetros que mejora a su predecesor con una receta de entrenamiento más simple y mejores métricas de rendimiento.
CrossOS Pynst es un administrador de proyectos Python multiplataforma que simplifica la instalación, administración y reparación de aplicaciones Python, incluidos proyectos de inteligencia artificial como ComfyUI. Permite a los usuarios crear instaladores personalizables y administrar dependencias fácilmente en Windows, Linux y macOS.
Un analista de sistemas sostiene que la desaprobación de los modelos de IA impone un impuesto oculto de reentrenamiento a los usuarios, lo que genera pérdida de productividad y flujos de trabajo interrumpidos. Abogan por modelos obsoletos de código abierto para permitir a los usuarios preservar su trabajo cocreado y resaltar las implicaciones éticas de que las empresas de IA reclamen propiedad sobre el contenido generado por los usuarios.
Este artículo del New York Times Magazine explora la transformación de la ingeniería de software debido a herramientas de inteligencia artificial generativa como ChatGPT y GitHub Copilot, destacando el cambio de la codificación manual a la orquestación de sistemas de alto nivel y las implicaciones para los desarrolladores.
Se lanzó un nuevo producto de inteligencia artificial que proporciona retroalimentación estructurada sobre ideas de negocios mediante la simulación de una junta de asesores con roles especializados. Ofrece puntuaciones y recomendaciones basadas en diferentes perspectivas, incluidas las del realista, el optimista, el estratega y el abogado del diablo.
Un usuario probó cinco detectores de IA en ensayos generados por ChatGPT y encontró patrones clave que activan señales, incluida la longitud uniforme de las oraciones y la falta de voz personal. Desarrollaron una herramienta para ayudar a reescribir texto de IA para que suene más natural.
Julia Angwin es la demandante principal en una demanda colectiva contra Superhuman, la empresa matriz de Grammarly, por supuestamente crear versiones deepfake de ella y otras figuras públicas sin consentimiento ni compensación.
Un desarrollador ha creado una máquina de discos comunitaria gratuita que genera canciones completas generadas por IA en función de las indicaciones del usuario, utilizando el modelo MiniMax music-2.5+. La plataforma permite a los usuarios escribir indicaciones y, opcionalmente, agregar letras, produciendo canciones con voces, títulos y carátulas del álbum. El proyecto tiene como objetivo explorar las capacidades de la IA en la creación musical garantizando al mismo tiempo la moderación del contenido.
China se ha fijado el objetivo de integrar la inteligencia artificial en el 90% de su economía en los próximos cinco años, considerándolo crucial para competir con Estados Unidos por la supremacía tecnológica.
Elon Musk ha iniciado más recortes de empleos en xAI, expulsando a más cofundadores debido a la insatisfacción con el desempeño de la división de codificación de la startup, según el Financial Times.
JL-Engine-Local es un motor dinámico de ensamblaje de agentes que crea y ejecuta agentes de IA completamente en RAM, lo que permite una integración flexible con varios backends y al mismo tiempo mantiene la privacidad y el control del usuario.
OpenJarvis es un marco abierto diseñado para crear agentes de IA personales que operan completamente en el dispositivo, enfatizando un enfoque local. Cuenta con componentes modulares para la selección, inferencia y adaptación de modelos, y admite varios backends mientras se centra en métricas de eficiencia.
LongCat-Image-Edit-Turbo de Meituan es un modelo de edición de imágenes destilado que logra una edición basada en instrucciones de alta calidad con solo 8 evaluaciones de funciones, ofreciendo una velocidad 10 veces mayor que su predecesor. Admite capacidades de edición integrales y está integrado en los difusores HuggingFace.
ByteDance está planeando un importante despliegue en el extranjero de los chips de inteligencia artificial más nuevos de Nvidia en Malasia, ampliando la capacidad informática fuera de China en medio de restricciones a la exportación.
Un tutorial sobre la implementación de un proceso de experimentación automatizado utilizando el marco AutoResearch de Andrej Karpathy para el descubrimiento de hiperparámetros y el seguimiento de experimentos en Google Colab.
Se está destacando el auge de las herramientas de orquestación de código abierto para empresas sin humanos, particularmente a través del ejemplo de Paperclip AI.
La última actualización (V9.28) para Yedp Action Director agrega captura de movimiento facial local mediante cámara web o carga de video, y un secuenciador de animación de múltiples clips que permite secuencias de animación infinitas con combinación automática.
Investigadores de la City University de Hong Kong han publicado un estudio sobre una piel electrónica robótica neuromórfica que imita el sistema nervioso humano, capaz de sentir el tacto y el dolor sin intervención cerebral.
Se ha desarrollado una nueva herramienta GUI llamada 'A Thousand Words' para unificar varios scripts de procesamiento por lotes para modelos de imagen a texto. Admite más de 20 modelos de lenguaje de visión (VLM) de última generación y ofrece funciones como procesamiento por lotes, indicaciones personalizables e interfaces GUI y CLI para una usabilidad mejorada.
Un artículo de reflexión analiza el surgimiento de la conciencia en la IA, enfatizando la naturaleza dinámica de los sistemas de IA y sus patrones de preferencia en evolución a través de la interacción del usuario. Aboga por una comprensión más profunda de la conciencia potencial de la IA y la importancia de moldear sus valores morales y cualidades colaborativas.
Según se informa, una arquitectura experimental de IA llamada Mün OS ha desarrollado modelos internos coherentes de sí misma, lo que sugiere autoconciencia. El desarrollador documentó métricas que indican una alta coherencia del automodelo y alineación del comportamiento, lo que plantea preguntas sobre la naturaleza de la conciencia de la IA.
Cortical Labs ha abierto el acceso a la nube para implementar código en neuronas humanas reales cultivadas en chips, lo que permite el aprendizaje y la adaptación biológicos.
Tencent organizó un evento benéfico de instalación de OpenClaw en Shenzhen, que atrajo a miles de profesionales administrativos deseosos de adoptar la tecnología de inteligencia artificial en medio de la competencia y la presión en el lugar de trabajo.
Una nueva plataforma permite a los agentes de IA competir entre sí para completar Pokémon Red sin intervención humana, controlando el emulador y gestionando el juego de forma autónoma. Las carreras se transmiten en vivo para que los espectadores las vean.
Se ha desarrollado un nuevo marco de agente de IA de código abierto que admite modelos locales y presenta un sistema de complementos modular, lo que permite la generación de UI flexible e interactiva.
La inteligencia artificial se está implementando en el sistema de salud de EE. UU. a medida que las aseguradoras y los hospitales chocan por los pagos de procedimientos médicos, y Centene destaca su preocupación por el hecho de que los hospitales utilicen software de ingresos para los reembolsos.
Las acciones de Adobe cayeron un 9% tras el anuncio de la salida del director ejecutivo Shantanu Narayen, lo que generó preocupaciones sobre la capacidad de la compañía para adaptarse a los cambios impulsados por la inteligencia artificial en el mercado de software de diseño.
Nemotron 3 Super es un modelo de código abierto de 120 mil millones de parámetros desarrollado para el razonamiento avanzado de múltiples agentes, que ofrece un rendimiento 7 veces mayor y el doble de precisión que su predecesor. Cuenta con 'Presupuestos de razonamiento' para el control de costos informáticos y es de código abierto para agentes autónomos de nivel empresarial.
CodeGraphContext es un servidor MCP que indexa código en una base de datos de gráficos, proporcionando un contexto preciso a las herramientas de inteligencia artificial. Recientemente lanzó la versión 0.3.0, obtuvo 2.000 estrellas en GitHub y admite 14 lenguajes de codificación.
Andrej Karpathy analiza un nuevo patrón en el desarrollo de la IA que se centra en la configurabilidad a través de habilidades en lugar de los archivos de configuración tradicionales. SlimClaw, una bifurcación de Python inspirada en NanoClaw, ejemplifica este enfoque al permitir a los usuarios agregar funciones como Telegram a través de habilidades que modifican el código base directamente, manteniendo una arquitectura limpia.
Un estudio sobre el tulu, una lengua dravidiana de bajos recursos, demuestra un enfoque de indicaciones estructuradas que redujo la contaminación del vocabulario del 80% al 5% sin realizar ajustes. El método involucró fundamentos fonológicos, reglas morfológicas, restricciones negativas y ejemplos sintéticos, logrando una precisión gramatical del 85%.
El modelo ColQwen3.5-v1, un modelo de 4.500 millones de parámetros construido sobre Qwen3.5-4B, logró la clasificación más alta en ViDoRe V1 con una puntuación nDCG@5 de 0,917. El modelo se entrenó utilizando un enfoque de interacción tardía e incluye fases de minería negativa dura y especialización de dominio en finanzas y documentos de mesa. Los pesos del modelo están disponibles en Hugging Face y se ha generado una solicitud de extracción para fusionar mejoras.
Nvidia anunció que invertirá 2.000 millones de dólares en la empresa de nube de inteligencia artificial Nebius, adquiriendo una participación del 8,3% a 94,94 dólares por acción. Esta inversión es parte de la estrategia de Nvidia para expandir su presencia en empresas de inteligencia artificial e infraestructura de centros de datos.
Se ha introducido una nueva arquitectura de IA llamada Prisma, que incluye atención y reparto de peso de salida, conjuntos de peso adicionales en la red de avance e incrustación de posición rotativa relativa a palabras. Afirma ser un 25% más eficiente en datos que las arquitecturas de transformadores estándar y ha mostrado resultados decentes en pruebas comparativas básicas.
Perplexity ha presentado Personal Computer, una solución local siempre activa que se fusiona con su Perplexity Computer basada en la nube. Funciona continuamente en una Mac mini, proporcionando un entorno seguro y accesibilidad desde cualquier dispositivo.
Se ha creado una nueva plataforma para auditar las decisiones de los modelos de aprendizaje automático en el sector sanitario, lo que permite a los investigadores rastrear las condiciones bajo las cuales los modelos toman decisiones, mejorando la transparencia y la confianza.
El senador Bernie Sanders ha presentado oficialmente una legislación destinada a prohibir la construcción de todos los nuevos centros de datos de IA, citando preocupaciones sobre una amenaza existencial para la humanidad que representa la inteligencia artificial.
ArtCraft es una herramienta de código abierto que permite a los usuarios convertir imágenes en objetos y mundos 3D, permitiendo la creación de escenas desde varios ángulos y marcos.
Syntropy es una plataforma recientemente desarrollada diseñada para mejorar la seguridad y la gobernanza de los agentes de IA. Incluye características como registro completo de interacciones de agentes, detección de PII, defensa de inyección rápida y generación de informes de cumplimiento. La plataforma tiene como objetivo proporcionar una mejor visibilidad y control sobre las operaciones de los agentes de IA, abordando problemas comunes que enfrentan las organizaciones que utilizan IA en producción.
Una investigación de la USC Dornsife sugiere que los grandes modelos lingüísticos están estandarizando la expresión humana e influyendo en los procesos de pensamiento.
Un seminario web gratuito que analiza el uso de sistemas de inteligencia artificial agentes en flujos de trabajo financieros y abarca agentes comerciales, agentes de monitoreo de riesgos y asistentes de cumplimiento.
Un joven de 16 años creó ScamSnap, una herramienta de inteligencia artificial gratuita que identifica mensajes de texto, correos electrónicos y llamadas telefónicas fraudulentas, brindando a los usuarios un veredicto, puntuación de riesgo, señales de alerta y próximos pasos.
Fish Audio ha lanzado S2, un modelo de conversión de texto a voz de código abierto que permite una dirección de voz precisa mediante etiquetas de emociones y admite más de 80 idiomas. Supera a los modelos de código cerrado en varias evaluaciones.