Members-Only
Recent Talks & Demos are for members only
You must be an AI Tinkerers active member to view these talks and demos.
Ollama Groq Local Inference
Explore deploying and optimizing LLMs locally using Ollama and Groq. Learn quantization, memory optimization, and batching for efficient local inference with real benchmarks.
En esta demostración exploraremos cómo desplegar y optimizar modelos de lenguaje (LLMs) en hardware local, enfocándonos en estrategias prácticas de inferencia para máxima eficiencia. Demostraremos la implementación de modelos como Ollama, Groq y otros frameworks, incluyendo técnicas de cuantización, optimización de memoria y batching para lograr latencias bajas y throughput alto en sistemas locales. Se incluirán benchmarks reales y comparativas de rendimiento.