Ollama Groq Local Inference

Explore deploying and optimizing LLMs locally using Ollama and Groq. Learn quantization, memory optimization, and batching for efficient local inference with real benchmarks.

Overview

En esta demostración exploraremos cómo desplegar y optimizar modelos de lenguaje (LLMs) en hardware local, enfocándonos en estrategias prácticas de inferencia para máxima eficiencia. Demostraremos la implementación de modelos como Ollama, Groq y otros frameworks, incluyendo técnicas de cuantización, optimización de memoria y batching para lograr latencias bajas y throughput alto en sistemas locales. Se incluirán benchmarks reales y comparativas de rendimiento.

Tech stack