Si tienes una NVIDIA GeForce RTX con 16 GB de VRAM, ahora puedes ejecutar tu propia IA de forma local

gpt-oss-20b en GeForce RTX 4080

tecnologia Un usuario sentado frente a un ordenador con una gráfica NVIDIA GeForce RTX 4080, ejecutando un modelo de IA en una pantalla con código y gráficos

Un usuario sentado frente a un ordenador con una gráfica NVIDIA GeForce RTX 4080, ejecutando un modelo de IA en una pantalla con código y gráficos

NVIDIA y OpenAI han anunciado una colaboración que permite ejecutar modelos avanzados de inteligencia artificial (IA) localmente en gráficas NVIDIA GeForce RTX y RTX Pro con 16 GB de VRAM. Esto elimina la necesidad de una conexión a Internet y suscripciones. Los modelos compatibles incluyen gpt-oss-20b y gpt-oss-120b, ideales para tareas como razonamiento avanzado, codificación asistida y análisis de documentos.

La integración está optimizada para herramientas como Ollama, Microsoft AI Foundry Local y llama.cpp. Ollama permite chats sin configuración adicional y soporta PDFs y prompts multimodales. Microsoft AI Foundry Local utiliza comandos y SDK, mientras que llama.cpp ofrece optimizaciones como Flash Attention y CUDA Graphs.

El modelo gpt-oss-20b requiere mínimo 16 GB de VRAM (recomendado GeForce RTX 4080) y ofrece 256 tokens por segundo en RTX 5090. El modelo gpt-oss-120b requiere 80 GB de VRAM (NVIDIA Blackwell) y alcanza 1,5 millones de tokens por segundo. Esta colaboración democratiza la IA de alto nivel en ordenadores de escritorio.

Vía: elchapuzasinformatico.com coments compartir

Crítica:

El artículo cumple con las expectativas del título al proporcionar información concreta sobre la ejecución de IA en NVIDIA GeForce. La calidad informativa es alta, con detalles específicos sobre los modelos y requisitos. Sin embargo, falta una fecha específica para la implementación. El tono es informativo, sin sensacionalismo.

Comentarios

Otros artículos

Una imagen de una persona interactuando con un entorno 3D generado por una IA, con texto y objetos en el espacio virtual.

Genie3 ofrece resolución de 720p

Google DeepMind presenta Genie3, su nuevo modelo de mundo que crea entornos 3D interactivos a partir de texto o imágenes en tiempo real. Genie3 mejora la resolución a 720p y 24 imágenes por segundo, con respecto a su predecesor Genie2 que ofrecía 360p. Este avance permite una mayor capacidad de navegación e interacción, incluyendo la posibilidad de modificar el mundo en tiempo real mediante instrucciones de texto. Genie3 puede generar entornos que pueden explorarse durante varios minutos, con la capacidad de interactuar con objetos y personajes de manera más realista. Aunque enfocado inicialmente en videojuegos, Google busca expandir su uso a investigación y entrenamiento de robots y agentes de IA. El modelo no está disponible para el público general, pero se concederá acceso a un pequeño grupo de académicos y creadores. Genie3 aún enfrenta desafíos como la generación de elementos incorrectos y textos ilegibles, así como la capacidad limitada de interacción de los agentes de IA con el entorno.

Ilustración de una pantalla de computadora con código abierto y un robot de IA en el fondo, rodeado de engranajes y circuitos

gpt-oss-120b requiere 80 GB GPU

OpenAI ha lanzado dos modelos de lenguaje de código abierto, gpt-oss-120b y gpt-oss-20b, bajo licencia Apache2.0. Estos modelos, entrenados con técnicas de aprendizaje profundo inspiradas en los modelos internos de OpenAI como o3 y o4-mini, están disponibles para descarga y uso sin restricciones comerciales. El gpt-oss-120b es equiparable al modelo o4-mini en tareas de razonamiento y puede ejecutarse en una sola GPU de 80 GB. El gpt-oss-20b, diseñado para dispositivos con 16 GB de memoria, supera a modelos propietarios como o1 y GPT-4o en benchmarks de salud y matemáticas. Ambos modelos destacan por su capacidad de razonamiento de cadena de pensamiento sin supervisión directa y soporte nativo para funciones estructuradas y llamadas de herramientas. OpenAI también ha publicado guías técnicas para el ajuste fino de modelos e integraciones con plataformas populares como Hugging Face y vLLM. La compañía ha desarrollado un protocolo para simular escenarios de uso malicioso extremo y enfatiza su compromiso con la seguridad y el beneficio colectivo. Los modelos están disponibles para que desarrolladores, organizaciones y países los utilicen, modifiquen y desplieguen en su propia infraestructura.

Un soldado ruso con un casco equipado con un sistema de guerra electrónica portátil, mostrando una pantalla en su antebrazo mientras opera en un entorno urbano devastado

Sistema de guerra electrónica portátil ruso

Rusia ha presentado un sistema inédito de guerra electrónica portátil diseñado específicamente para cada combatiente. El sistema consta de un módulo con dos antenas acoplado al casco, un arnés de conexiones, una pantalla montada en el antebrazo y una batería de alimentación. El dispositivo detecta de forma pasiva la señal radioeléctrica del dron, intercepta la señal de vídeo transmitida hacia el operador y la reproduce en la pantalla del soldado. Desde allí puede ordenarse la interferencia dirigida, cegando al piloto enemigo. La innovación reside en que este mecanismo no busca cortar el enlace de control ni de navegación, sino atacar directamente la transmisión de vídeo. Esto reduce la necesidad de emitir grandes niveles de energía, disminuye el riesgo de interferir en las propias comunicaciones rusas y mantiene baja la huella electromagnética del sistema. El método ofrece varias ventajas sobre los sistemas de supresión convencionales, como evitar activar los protocolos de seguridad de los drones ucranianos de última generación. La portabilidad permite que cada soldado disponga de una burbuja de protección mínima contra drones hostiles. Pese a su ingenio, el sistema ruso no está exento de debilidades, como ser ineficaz contra drones de fibra óptica. Si Rusia consigue desplegar esta tecnología a gran escala, podría transformar el equilibrio en sectores clave del frente.

Ilustración de una gráfica GeForce RTX50 con un precio reducido en una tienda de electrónica

Reducción de precio en GeForce RTX 5070

NVIDIA y sus socios planean reducir los precios de sus gráficas GeForce RTX50 Series debido a una enorme presión por el exceso de oferta en un mercado de baja demanda. A pesar de haber sido inicialmente escasas, las ventas no alcanzaron las expectativas. La reducción de precio busca reactivar las ventas y liberar stock. Esto no es sorprendente tras los rumores de finales de mayo, donde se indicó que NVIDIA había reducido la producción de GPU RTX50 entre un 20 y 30%, priorizando la producción de chips para IA enfocados al mercado chino. Los precios recomendados de las GPU NVIDIA GeForce RTX50 Founders Edition ya experimentaron una leve reducción en Reino Unido y Europa. En Estados Unidos, se han visto recortes en gráficas como la GeForce RTX 5070 y RTX 5060 Ti. Los modelos de 8 GB de la GeForce RTX 5060 han sido un fracaso y se pueden encontrar por debajo de su precio recomendado. Se esperan descuentos más diversos en agosto para reducir la oferta y desplazar parte del inventario activo.

Ilustración de una persona trabajando en una computadora con una IA ayudándole a programar, rodeado de notas y diagramas.

Addy Osmani proporciona 7 consejos clave

El jefe de ingeniería de Google Chrome, Addy Osmani, comparte una guía de siete pasos para colaborar eficazmente con herramientas de IA en programación. Osmani enfatiza que planificar antes de pedir es crucial. Su primer consejo es proporcionar estructura a la IA, ya que prospera con especificaciones claras. Un buen plan debe incluir propósito, requisitos, entradas y salidas, restricciones, APIs, hitos y convenciones de código. El segundo consejo es usar 'Prompts Dirigidos por Tests', comenzando por pedirle a la IA que escriba tests que el código final debería superar. Tercero, dividir tareas complejas en trozos pequeños. Cuarto, alimentar a la IA con contexto, como guía de estilo de programación o fragmentos de código previo. Quinto, usar la IA para generar diagramas. Sexto, nunca fiarse ciegamente del código generado. Osmani concluye que programar con IA es un proceso colaborativo. La guía de Osmani ayuda a evitar el 'vibe coding', que puede llevar a resultados mediocres. Addy Osmani lidera ingeniería de Chrome. Su enfoque combina planificación y colaboración con IA.

Una imagen de una persona sentada frente a una televisión con una pantalla de Netflix mostrando

Barry Schwartz demostró más opciones no hacen más felices

La paradoja de Netflix y la productividad se centra en la cantidad excesiva de opciones que pueden llevar a la parálisis. Según Barry Schwartz, tener demasiadas opciones no solo no hace más felices a las personas, sino que también las paraliza. El caso de Netflix es paradigmático: con 15.000 títulos disponibles, los usuarios a menudo recurren a lo conocido, como 'The Office', en lugar de explorar nuevas opciones. De manera similar, en el ámbito de la productividad, herramientas como Notion, Obsidian y Todoist ofrecen una amplia gama de personalizaciones, pero esto puede llevar a los usuarios a pasar más tiempo configurando sistemas que trabajando. La investigación de Schwartz demuestra que cada decisión consume energía mental. Por otro lado, sistemas más restrictivos como el iPhone de Apple o la aplicación Things3 pueden ser más efectivos debido a sus limitaciones. La clave está en encontrar un equilibrio entre opciones y restricciones para maximizar la productividad. La regla general es buscar herramientas que realicen bien unas pocas tareas esenciales en lugar de intentar abarcarlo todo. De esta forma, se reduce la fricción cognitiva y se aumenta la eficiencia.

Una imagen de una persona interactuando con una pantalla que muestra una traducción en tiempo real de un idioma a otro, con un robot o una inteligencia artificial en el fondo.

IA reduce tiempo de edición a 2 segundos

La empresa de traducción Translated, con sede en Roma, ha desarrollado una inteligencia artificial (IA) capaz de traducir el habla con una precisión cercana a la de un humano. Según Marco Trombetti, CEO de Translated, la IA ha mostrado una mejora lenta pero innegable en la calidad de las traducciones entre 2014 y 2022. La empresa utilizó una métrica llamada 'Tiempo de Edición' (Time to Edit, TTE) para medir el rendimiento de su IA. En 2015, los editores profesionales tardaban 3,5 segundos en revisar cada palabra traducida por la IA; en la actualidad, ese tiempo se ha reducido a solo 2 segundos. Si esta tendencia continúa, la IA de Translated podría igualar la calidad de una traducción humana para finales de la década. El logro de Translated podría cambiar la sociedad por completo, aunque la verdadera 'singularidad tecnológica' siga siendo un horizonte lejano y esquivo. La singularidad describe el momento en que la IA supera el control humano y transforma la sociedad de forma acelerada. El lenguaje es uno de los retos más complejos para la inteligencia artificial, pero una máquina que pudiera cerrar esa brecha podría mostrar signos de Inteligencia Artificial General (AGI). Translated analizó más de 2.000 millones de correcciones para obtener estos resultados.

Más artículos de
tecnologia