¿Alguno habéis montado algún LLM en local?

1 2 3

3 / 3

CheckCenter

ForoCoches: Miembro

13-jul-2026 23:40

Cita de Starscream

Discrepo con intensidad.

Que va tio, es más a muchos amigos no informaticos pero profesionales de los suyo les recomende y asisti para que se montaran lo suyo local barato (antes de que subiera la memoria).

ryzen 5 5600G con 32GB DDR4 3600MHz para los que tiraban a lo minimo por 450€
y los que querian un poco más, ryzen 5 AM5 9600/X con 64GB DDR5 6400MHz, por 750€.

y sobre la luz, pues joder..cuando la gente no lo necesita los apaga, placa+cpu+ram,nvme, disipador, 1 ventilador apañado y la fuente, algunos equipos no gastaran ni 100W del enchufe a maxima carga.

Gente que no quiere compartir su codigo, sus estructuras, sus rutinas con ninguna empresa cuyo dueño con nariz grande y curvada usara para entrenar sus modelos, gente que hace cosas que no es legal en todos los paises del mundo, gente que tiene que cumplir RGPD, LPD, LGPD, ISO27001 y 20.000 mierdas más.

No lo hacen por ahorrar, lo hacen para no incurrir en multas, para no regalar su trabajo, por la confidencialidad de sus clientes o para tener respuestas extendidas que solo un modelo "descensurado/abliterated" te puede conseguir.

Por eso solo trabajo con CPU's, no me caso con nadie, ni nvidia, ni intel, ni amd, ni microsoft, si mañana empiezan a poner restricciones, drms, o hacerlos ilegales, pillo una china risc-v con linux, le meto debian y compilo llamacpp para risc-v, si..me ira más lento, pero no me van a parar la infaestructura.

me cago en los muertos de todas las nubes, los clouds, las suscripciones y los wokes

Cuántos tokens de entrada y salida tienes usando sólo CPU?
Qué modelos?

La verdad, los modelos chinos y sitios como openrouter y similares son bastante más baratos que montar algo de cero. Para mi uso personal me basto con Gemini gratuito, pero me gustaría poder hacer más vídeos con IA y ahí es donde o pagas o tienes una granja de GPUs

Starscream

ForoCoches: Miembro

14-jul-2026 00:10

#62

Cita de CheckCenter

unos 11.5tokens/s con qwen3.6-35B-A3B en Q5_K_M, llamacpp en un windows 10 ltsc 1809, ryzen 5 5500.

suele empezar en 12.5tokens/s y va bajando poquito a poco quedando estable en 11token/s

cierto que los MoE chinos de tamaño inicial son unas maravillas.

tampoco te hace falta una granja de cpu....solo te hace falta una botnet....

CheckCenter

ForoCoches: Miembro

14-jul-2026 11:32

#63

Cita de Starscream

Pues la verdad es un mojón, pero bueno si a ti te sirve..

europingüino

Eres kangrena

14-jul-2026 12:07

#64

Cita de CheckCenter

Pues la verdad es un mojón, pero bueno si a ti te sirve..

cual te refieres que es un mojon? el modelo que él esta usando o el hecho de usar la CPU frente a a GPU?

yo estoy aprendiendo aqui muchas cosas, no sabia que se pueden correr modelos de IA en la CPU con la memoria RAM

yo en mi equipo tengo: Ryzen 5 7600 + 64 GB DDR5 + RTX 3060 12 GB + RTX 3060 12 GB

Y ahora estoy intentando averiguar cuales modelos puedo correr en mi maquina con dos graficas de 12GB corriendo en paralelo.

No necesito mas de 5 tokens por segundo. Yo puedo esperar las respeustas no tengo prisa, pero quiero que las resupestas sean de calidad y que si monto un agente que ejecute BIEN las tareas y que recuerde mucho contexto para que no se pierda, y que tenga en cuenta todo el contexto cuando elabore sus respuestas o de las ordenes de ejecutar tareas

Starscream

ForoCoches: Miembro

14-jul-2026 13:23

#65

Cita de europingüino

Ostia puta, el de de arriba de ti tendra acciones de nvidia y querra que el xino juan salga con una chupa de platino, xD.

Teniendo 12GB x2, lo que tienes que tener en cuenta es que si metes un modelo MoE, el trasiego de expertos de una tarjeta a otra es lo que te va a matar el rendimiento, asi que tienes que concentrarte en un modelo denso (los que no son MoE).

Como tienes memoria de sobra, te da para meterte uno de los mejores modelos que hay, ya te dejo el enlace para que puedas bajarlo y trabajar con el cuantizado.

https://huggingface.co/bartowski/Qwen_Qwen3.6-27B-GGUF

Yo intentaba primero en lm studio, cerrando todas las aplicaciones posible de fondo, revisa en las opciones de lm studio en "runtime" y "hardware" que este el backend funcionando con CUDA y tambien que esten activas las 2 graficas.

Tambien es importante que cuando cargues el modelo, le marques a lm studio que no te mantenga una copia del modelo en RAM para no desperdiciarla.

Te deberia entrar, calculo que tendria que darte unos 17tokens/s

con esa maquina, es que no es para nada descabellado que tenga varios modelos en paralelo, un MoE en la ram principal, un Qwen3.5-9B en la gpu secundaria y la principal descargada o con algo más.

Con llamacpp tienes más control y lo puedes hacer mover mejor pero es bueno no atragantarse de primeras, el hacer mucha prueba y error al principio aunque parece que te hace perder tiempo, te hace ganar instinto e intuición luego.

Editado: 14-jul-2026 13:38 -

europingüino

Eres kangrena

14-jul-2026 13:29

#66

Cita de Starscream

Te deberia entrar, calculo que tendria que darte unos 17tokens/s

con esa maquina, es que no es para nada descabellado que tenga varios modelos en paralelo, un MoE en la ram principal, un Qwen3.5-9B en la gpu secundaria y la principal descargada o con algo más.

Con llamacpp tienes más control y lo puedes hacer mover mejor pero es bueno no atraganatse de primeras, el hacer mucha prueba y error al principio aunque parece que te hace perder tiempo, te hace ganar instinto e intuición luego.

mucha gracias maquina, este tipo de comentarios me dan la vida

CheckCenter

ForoCoches: Miembro

14-jul-2026 14:15

#67

Cita de europingüino

Es un mojón el número de tokens/segundo que tiene de entrada/salida, por usar modelos altamente cuantificados, bajo contexto, lentitud a la hora de interpretar el prompt.., pero en el caso del mensaje al que contestaba, que decía que no usaba GPU, en tu caso con una Nvidia y 12 GB de VRAM es otra historia.

Mientras que exista DS, chatgpt, Gemini gratuito no le veo sentido a todo esto, si tu idea es reemplazar una cosa por otra. Si es para cacharrear y ya lo tenías, pues vale, pero gastarte lo que están poniendo por aquí algunos..

Otra cosa diferente es que uses un Mac nuevo M1, M2.. con memoria unificada

Starscream

ForoCoches: Miembro

14-jul-2026 15:57

#68

Lo preocupante es que hasta un modelo enano de 1B parametro cuantizado a bit, seria capaz de detectar que lo gratuito es solo porque es el usuario es el producto, que sus consultas son usadas para entrenar modelos, sus estadisticas y perfil vendidos para publicidad/marketing y que algun va derechito a ser un consumidor cautivo, de una herramienta que en el futuro será cada vez más cara y que hay ciertas preguntas, consultas y requirimientos que LA HERRAMIENTA SE NIEGA A HACER.

Lord-Blade

ForoCoches: Miembro

14-jul-2026 16:21

#69

Cita de Starscream

No hacia falta el aviso, pero se agradece

(hay gente tan blandita que no estar de acuerdo con ellos ya los pone tensos).

Suelo ejecutar el Qwen3.6-35B-A3B, pero alguna vez arranco el Qwen-Next-80B-A3B, solo trabajo con texto, de higos a brevas le meto una imagen con texto directamente.

Consultas tecnicas, resumenes, reescritura de texto, cambio de estilo gramatical, corrección de texto, creación de indices.

No me gusta que me hagan el trabajo porque se que la lian, pero ....me es más comodo concentrarme en el nucleo de lo que yo se hacer bien, soltar el texto en bruto sin corregir, medio ordenado, metiendo referencias de un parte a otra y decirle: ale, leetelo, une las partes, ponle un indice, ponme las fuentes, ponme la resferencias.

Tambien a veces pido ayuda a que me hagan un script, o codigo chorra, se los paso en pseucodigo y se lo pido en el lenguaje chorra de moda.

A redactar texto legales o reclamaciones son muy muy buenos.

Por fin podemos tener secretaria los pobres. XD

Comparto tu punto de vista local, y dependiendo del modelo uso inferencia mixta.

Antes lo hacia solo en modelo 4B local y me valía para lo que necesitaba.
Pero un par de discrepancias.
-Una GPU realiza en muchos casos los cálculos mas rápidos y la inferencia(aunque el modelo sea mas grande que la VRAM.
-Defiendo la IA local, pero entiendo que a nivel de productividad, trabajo o coste actualmente salga mas rentable la online.

Cita de CheckCenter

No hacen falta granjas, aunque como todo depende de que quieras correr y a que velocidad

Cita de Starscream

unos 11.5tokens/s con qwen3.6-35B-A3B en Q5_K_M, llamacpp en un windows 10 ltsc 1809, ryzen 5 5500.

suele empezar en 12.5tokens/s y va bajando poquito a poco quedando estable en 11token/s

cierto que los MoE chinos de tamaño inicial son unas maravillas.

Tampoco te hace falta una granja de cpu....solo te hace falta una botnet....

Los modelos pequeños MoE son cojonudos y también soy del mínimo de 5t/s o velocidad de lectura, pero para la gente acostumbrada a la online (paginas por segundo) es lógico que algunos por comparación la desestimen.

Cita de europingüino

Hay muchos modelos puedes incluso plantearte MOE de 110-122 B que a q4 podrían entrar en todo tu sistema. O modelos tipo 27B a q6 o 35 A3B a q8 es ir probando velocidad y q.

Cita de Starscream

+1 a llamacpp, koboldcpp e ikllama.

Cita de Starscream

No es mentira lo que dices, pero es elección de cada uno aprovechar ahora que esta barata y el mañana dios dirá.

Yo lo ejemplo entre de cabeza pensando en capacidad aunque muy lenta sobre velocidad(GPU) fue mi apuesta, pero para otra gente puede no ser lo mejor.

Relax y cada uno que aporte lo que le funciona

1 2 3

3 / 3

← A Electrónica / Informática

¿Alguno habéis montado algún LLM en local?

Trending

Foros relacionados

General

Electrónica / Informática

Videojuegos

Empleo / Emprendimiento

Oposiciones

Viajes

Basket

InverForo

Criptomonedas