Selecció de model per cas d’ús

Capacitats del model
Capacitats d’execució i desplegament
Requisits per cas d’ús
Com avaluar un model nou
Models de referència (2026)
Estratègies generals de selecció

Els casos d’ús descrits a Arquitectures per cas d’ús requereixen subconjunts de capacitats diferents. No tots els models les suporten, i els que ho fan les implementen amb qualitat i cost variables.

Aquest document estructura les capacitats rellevants i els seus requisits per cas d’ús. Aquesta matriu és un marc d’avaluació: serveix tant per seleccionar models existents com per avaluar qualsevol model nou. Els models concrets de la secció final il·lustren com aplicar-la, però el que envelleix és la llista de models — no el marc.

Com llegir la matriu: primer mira les capacitats del model per descartar opcions, i després les capacitats d’execució i desplegament per validar que la solució encaixa amb la infraestructura. A la taula de casos d’ús, ✓ indica que una capacitat és necessària, ○ que és recomanable o parcialment útil, i — que no cal.

Capacitats del model

Capacitat	Descripció
Sortida estructurada	Generació de JSON vàlid conforme a un esquema (`response_format`, `parse()`, function calling com a esquema)
Tool use	Retornar `tool_calls` en el format estàndard i processar els resultats en el bucle d’agent
Raonament extès	Tokens de raonament interns (“thinking”) que milloren la qualitat en tasques de planificació multi-pas
Context llarg	Finestra de context útil per sobre de 100K tokens
Visió	Processar imatges com a entrada (base64 o URL)

Capacitats d’execució i desplegament

Capacitat	Descripció
Streaming	Retornar tokens incrementalment (SSE); rellevant per a interfícies de chat
Prompt caching	Reutilitzar el KV-cache de prefixos estàtics per reduir cost i latència
Desplegament local	Model disponible per executar sense API externa (open weights¹)
Fine-tuning	Possibilitat d’ajustar els pesos del model amb dades pròpies

¹ Open weights: el fabricant publica els pesos entrenats del model perquè qualsevol els pugui descarregar i executar. Diferent de open source en sentit estricte — els pesos poden tenir llicències que restringeixen l’ús comercial.

Requisits per cas d’ús

✓ requerit · ○ recomanat · — no necessari

Les cinc primeres columnes són capacitats funcionals del model. Les quatre últimes descriuen requisits d’execució, lliurament i manteniment que poden condicionar la selecció final encara que el model sigui tècnicament capaç de resoldre la tasca.

Cas d’ús	Sortida estructurada	Tool use	Raonament extès	Context llarg	Visió	Streaming	Prompt caching	Local	Fine-tuning
1. Classificador / extractor	✓	—	—	—	○	—	○	○	○
2. Assistent conversacional	—	—	—	○	○	✓	○	—	—
3. Q&A sobre base de coneixement (RAG)	○	—	—	○	○	○	○	—	—
4. Generació personalitzada	✓	—	—	—	—	—	✓	—	○
5. Agent amb eines	✓	✓	○	○	○	—	○	○	—
6. Pipeline de processament en batch	✓	—	—	—	○	—	✓	○	○
7. Assistent conversacional amb eines	✓	✓	—	○	○	✓	○	—	—
8. Agent amb RAG (Agentic RAG)	✓	✓	○	○	○	—	○	○	—
9. Sistema multi-agent orquestrat	✓	✓	✓	○	○	—	○	—	—

Notes sobre els requisits:

Sortida estructurada és necessària sempre que el backend ha de parsejar la sortida del model programàticament. En els casos conversacionals purs (2), la sortida és text lliure.
Raonament extès aporta valor clar en els casos 5, 8 i 9, on la planificació i el raonament multi-pas són el coll d’ampolla. En els altres casos afegeix latència i cost sense benefici proporcional.
Context llarg és imprescindible quan l’historial de conversa creix molt (cas 2) o quan el context recuperat per RAG és voluminós (casos 3, 8). Per a la majoria de documents habituals, 128K és suficient.
Prompt caching és una optimització de cost, no una capacitat funcional. Val especialment la pena en casos on el system prompt és llarg i estàtic i hi ha moltes peticions (casos 4 i 6).
Fine-tuning és una optimització tardana — provar primer amb prompting i few-shot. Té sentit per als casos 1 i 6 quan hi ha milers d’exemples etiquetats i el prompting no arriba a la qualitat requerida.

Com avaluar un model nou

Per aplicar la matriu a qualsevol model — nou, propi, open source o comercial — cal verificar cada capacitat de forma independent:

Capacitat	Senyals a verificar
Sortida estructurada	Suporta `response_format: {type: "json_schema"}`? O cal `guided_json` / constrained decoding? Quin és el percentatge d’errors d’esquema en 100 crides?
Tool use	Retorna `tool_calls` en format OpenAI compatible? Gestiona múltiples eines en paral·lel? Quin és el percentatge de crides correctes al tool adequat en un benchmark d’eines?
Raonament extès	Suporta tokens de raonament (thinking) separats de la resposta final? La qualitat en tasques multi-pas millora significativament respecte al mode estàndard?
Context llarg	Quin és el context màxim anunciat? Com es comporta en el benchmark needle-in-a-haystack¹ a 80% i 100% d’ompliment?
Visió	Accepta `image_url` en el format estàndard? Quin és el cost en tokens per imatge? Funciona amb PDF directament o cal extracció de text prèvia?
Streaming	Suporta `stream=True` amb SSE en el format OpenAI? Primera resposta en < 1s?
Prompt caching	Té caching natiu de prefix? Cal marcar explícitament els blocs cacheïtzables? Quin és el percentatge de reducció de cost observat en crides repetides?
Desplegament local	Els pesos són disponibles públicament? Quins formats (GGUF, AWQ, GPTQ)? Quin és el requisit mínim de VRAM per al model complet i en quantitzat?
Fine-tuning	Admet SFT (supervised fine-tuning) sobre els pesos? Hi ha una API de fine-tuning gestionada? Quin és el cost i el temps per a un dataset de 10K exemples?

¹ Needle-in-a-haystack: benchmark que amaga un fet concret en un document llarg i comprova si el model el recupera. Mesura si el model realment usa tot el context o perd atenció al mig de la finestra.

La verificació no ha de ser exhaustiva per a totes les capacitats — només per a les marcades com ✓ o ○ en la matriu del cas d’ús concret.

Models de referència (2026)

La taula següent aplica el marc als models principals disponibles a principis de 2026. Inclou els models frontier —els models comercials de màxima capacitat disponibles via API— i les principals opcions open weights com a referència. Envelleix ràpid — usar-la com a punt de partida i verificar les capacitats crítiques directament amb la documentació i evals pròpies.

✓ suportat · ○ suport parcial o limitat · — no disponible

Model	Sortida estructurada	Tool use	Raonament extès	Context	Visió	Streaming	Prompt caching	Local	Fine-tuning
Claude Opus 4.7	✓	✓	✓	200K	✓	✓	✓	—	—
Claude Sonnet 4.6	✓	✓	✓	200K	✓	✓	✓	—	—
Claude Haiku 4.5	✓	✓	—	200K	✓	✓	✓	—	—
GPT-4o	✓	✓	—	128K	✓	✓	✓	—	✓
o3 / o4-mini	✓	✓	✓	200K	✓	✓	✓	—	—
Gemini 2.5 Pro	✓	✓	✓	1M	✓	✓	✓	—	○
Gemini 2.5 Flash	✓	✓	○	1M	✓	✓	✓	—	○
Llama 3.x	○	✓	—	128K	○	✓	○	✓	✓
Qwen 2.5 / 3	○	✓	○	128K	✓	✓	○	✓	✓
Mistral Large	✓	✓	—	128K	✓	✓	✓	✓	✓

Notes sobre els models:

Sortida estructurada als models locals (Llama, Qwen) requereix guided_json via vLLM o Outlines, que imposa l’esquema directament a la mostra de tokens. Sense aquesta infraestructura, la fiabilitat és variable. Per als models d’API, és nativa i fiable.
Raonament extès de Gemini 2.5 Flash és configurable (“thinking budget”); desactivat per defecte. Activar-lo incrementa latència i cost, i el converteix funcionalment en un model de raonament.
Prompt caching als models locals no és natiu del model — depèn del servidor d’inferència (prefix caching a vLLM). La columna reflecteix la disponibilitat de la infraestructura, no del model en si.
Fine-tuning de Claude no és disponible públicament; Anthropic el gestiona de forma selectiva per a casos empresarials específics.
La qualitat de tool use varia significativament entre famílies. Claude i GPT-4o / o3 són els de referència. Els models open source requereixen validació amb evals pròpies per a cada cas d’ús, especialment en agents amb moltes eines o condicions d’error.
Visió als models Llama (família 3.2 multimodal) és disponible als models petits (11B, 90B), que tenen menor qualitat general que els models text de la mateixa família.

Estratègies generals de selecció

Identificar les capacitats crítiques primer

Abans de triar un model, identificar quines capacitats de la matriu estan marcades com ✓ per al cas d’ús concret. Qualsevol model candidat ha de superar la verificació d’aquelles capacitats — les marcades ○ s’avaluen si hi ha empat.

API vs. model local

La tria entre API comercial i model local no és principalment de qualitat — és de privacitat, cost i control:

Criteri	API comercial	Model local
Dades sensibles o regulades	Depèn del contracte del proveïdor	Dades no surten de la infraestructura pròpia
Cost en volum alt	Lineal amb tokens, pot ser car	Cost fix (maquinari / núvol), zero marginal
Manteniment	Cap (el proveïdor actualitza el model)	Cal gestionar versions, actualitzacions, infraestructura
Qualitat en tool use i sortida estructurada	Alta i consistent	Variable; cal `guided_json` i validació amb evals
Fine-tuning	Limitat o API de pagament	Control complet sobre els pesos
Ús comercial	Sempre permès (cobert pel contracte de l’API)	Depèn de la llicència dels pesos — verificar abans de desplegar

Les llicències de models locals van des d’Apache 2.0 (ús comercial lliure) fins a llicències restrictives com la Llama Community License de Meta, que requereix acceptació explícita i limita l’ús a organitzacions per sota d’un llindar d’usuaris. Desplegar un model local en producció sense revisar la llicència és un risc legal.

Punt de partida: avaluar primer si hi ha restriccions que descartin una de les dues opcions — privacitat de dades, regulació sectorial (GDPR, HIPAA, etc.) o política interna poden fer inviable l’API comercial des del principi; el cost d’operació o la manca de capacitat tècnica per mantenir infraestructura poden fer inviable el model local. Si cap restricció ho determina, l’API comercial sol ser el camí més ràpid per validar. En qualsevol cas, si s’opta per model local, verificar la llicència dels pesos abans de desplegar.

Mida del model

Els models grans costen més per crida però solen requerir menys reintents, produeixen menys errors d’esquema i gestionen millor els casos límit. Per a la majoria de casos d’ús, el cost marginal d’un model mig és acceptable.

Quan usar un model petit (Haiku, Flash, mini, 8B): la tasca és simple i ben definida (classificació binària, extracció de camps fixes), el volum és molt alt, o s’usa com a worker dins d’un sistema multi-agent on el supervisor és el model gran.

No escalar per sota del que els evals demostren que funciona. Canviar de model gran a petit per estalviar cost sense mesurar l’impacte en la qualitat és un dels errors més habituals en sistemes LLM en producció.

Raonament extès

El raonament extès (thinking tokens) millora la qualitat en tasques on el nombre de passos o la complexitat de la planificació és el coll d’ampolla. No millora tasques simples — afegeix latència i cost sense benefici:

Millora amb raonament extès	No millora
Planificació d’agent multi-pas	Classificació i extracció de dades
Raonament lògic i matemàtic	Respostes conversacionals
Diagnosi de causes en sistemes complexos	Generació amb esquema fix
Síntesi de múltiples fonts contradictòries	RAG quan el context ja conté la resposta

Cost: on actuar

Tres mecanismes redueixen el cost sense canviar de model:

Prompt caching: per a system prompts llargs i estàtics (> 1K tokens) amb moltes peticions, el caching pot reduir el cost d’entrada en un 80–90%. Imprescindible per als casos 4 i 6.
Batch API: els proveïdors comercials processen batches asíncronament amb un 50% de descompte. Adequat quan no hi ha restriccions de temps (cas 6).
Model mínim suficient: mesurar la qualitat per tasca senzilla amb el model petit abans d’assumir que cal el gran. En classificació i extracció, models petits sovint arriben al 95% de la qualitat del model gran.

Per cas d’ús: punts de partida

La columna “primera opció” reflecteix models que cobreixen les capacitats crítiques amb bona qualitat sense verificació addicional. La columna “alternativa econòmica” pot requerir validació amb evals pròpies.

Cas d’ús	Primera opció (qualitat)	Alternativa econòmica
1. Classificador / extractor	Model mig + structured output	Model petit (8B local) + guided_json
2. Assistent conversacional	Model mig, bon instruction-following	Model petit del mateix proveïdor
3. Q&A (RAG)	Model mig, bon context-following	Model local (70B)
4. Generació personalitzada	Model mig + prompt caching	Model petit + caching
5. Agent amb eines	Model mig amb bon tool use	Model local (70B) + validació d’evals
6. Batch processing	Batch API del proveïdor actual	vLLM + model local
7. Assistent conv. amb eines	Model mig amb bon tool use	Model petit del mateix proveïdor
8. Agentic RAG	Model mig o gran amb raonament	Model local (70B) + validació
9. Multi-agent orquestrat	Model gran amb raonament extès (supervisor) + model mig (workers)	Model mig amb raonament (supervisor)

Regla general: comença amb el model mig del proveïdor actual — bon equilibri cost/qualitat per a la majoria de casos. Escala al model gran si els evals mostren insuficiència en raonament. Mou a model local si la privacitat o el cost en producció ho requereix, i verifica les capacitats crítiques amb evals pròpies.

Models de referència actuals (2026): a tall d’il·lustració — Claude Sonnet 4.6 i GPT-4o com a models mitjos de referència; Claude Opus 4.7 i o3 com a models grans amb raonament extès; Llama 3.x i Mistral Large com a opcions locals. La matriu de verificació de la secció anterior és l’eina per avaluar nous models quan apareguin.

📝 Per als patrons de prompting, sortida estructurada i tool use, consulta Patrons de programació amb LLMs. Per als requisits de maquinari dels models locals i les opcions de desplegament, consulta Arquitectura de sistemes LLM.

Keyboard shortcuts

apunts.jg5.dev