Introducció a la IA
- Què és la IA?
- Com s’organitza aquest material
- Paradigmes principals
- Exemples de sistemes IA
- Com funciona un sistema IA
- Com s’avalua un model de ML
- Com funcionen els LLMs
- Com abordar un projecte d’IA
- Limitacions i riscos
- Tancar el mapa
Què és la IA?
La Intel·ligència Artificial (IA) és la branca de la informàtica que construeix sistemes capaços de fer tasques que normalment associem a la intel·ligència humana. En termes pràctics, penseu-hi com en sistemes que transformen entrades en sortides, però que poden aprendre a partir de dades i no només seguir regles escrites a mà.
La diferència clau amb la programació tradicional és aquesta:
- Programació tradicional: dades + regles → resultat
El programador escriu les regles explícitament: “si l’import supera 1000 € i el país és inusual, marca com a sospitós”. - Machine Learning: dades + resultats coneguts → model
El sistema aprèn les regles a partir de milers d’exemples etiquetats. El programador no les escriu; les dades les impliquen. - Inferència: noves dades + model → nou resultat
El model entrenat s’aplica a casos nous. És la fase de producció: el model ja no aprèn, només respon. - LLMs i models fundacionals: model preentrenat + prompt, eines o ajustaments → resultat
El model ja porta milions d’exemples apresos. El programador no entrena des de zero: configura el comportament amb instruccions, context o eines.
La IA moderna no és una sola tècnica, sinó un conjunt de paradigmes que van des de regles simbòliques fins a sistemes d’aprenentatge i, avui, fins a arquitectures amb LLMs (large language models), retrieval, eines i evals (tests d’avaluació del comportament d’un sistema). En tots els casos, el que construïm és IA estreta: sistemes especialitzats en tasques concretes, amb inputs i outputs ben definits i poca transferència entre dominis molt diferents. La IA general (AGI) és una idea útil per parlar de futur, però no descriu el que construïm avui.
Com s’organitza aquest material
Aquesta introducció és la porta d’entrada a tres blocs principals:
- Aprenentatge Automàtic: fonaments del ML clàssic, supervisat, no supervisat, xarxes neuronals, mètriques i metodologia.
- Desplegament i operació: portar models a producció, validar-los, monitoritzar drift i mantenir-ne el cicle de vida.
- LLMs i IA Generativa: transformadors, patrons amb LLMs, sortida estructurada, RAG (retrieval-augmented generation, és a dir, combinar cerca i generació), agents, evals i producció.
Si t’has de quedar amb una sola idea, que sigui aquesta: comença pel sistema més simple que pugui resoldre bé el problema, i puja de nivell només si les dades, el cost, la latència o la fiabilitat ho demanen. Els apartats que segueixen construeixen el mapa conceptual que fa falta per entendre qualsevol d’aquests blocs.
Paradigmes principals
Abans del ML, la IA era principalment simbòlica: sistemes que seguien regles escrites explícitament per humans — lògica, condicions, motors d’inferència. Era el paradigma dominant fins als anys 90, i encara apareix en sistemes de regles de negoci, validació i compliance. Però no és el que avui entenem per IA: és enginyeria de software amb lògica explícita, útil quan el domini és estable i auditable, però incapaç de generalitzar quan les regles no es poden escriure a mà.
La IA moderna gira al voltant de tres paradigmes que aprenen:
Aprenentatge automàtic
El sistema deriva el seu comportament a partir de dades i optimització, no de regles escrites a mà. El desenvolupador defineix la tasca i proporciona exemples; el model aprèn la funció que els connecta.
Hi ha tres modalitats principals:
-
Supervisat: el model aprèn a partir d’exemples etiquetats — cada entrada té una resposta coneguda. És el cas de la classificació i la regressió.
-
No supervisat: el model troba estructura en dades sense etiquetes — agrupa, comprimeix o detecta anomalies sense saber la resposta correcta.
-
Per reforç: el model aprèn per assaig i error interactuant amb un entorn i rebent recompenses. Menys freqüent en producte general, però és la base de sistemes d’optimització i de l’alineació de LLMs amb RLHF.
-
Tècniques: regressió, classificació, clustering, KNN, gradient boosting, xarxes neuronals.
-
Àmbits: predicció, detecció d’anomalies, processament d’imatge i àudio, recomanació.
Models fundacionals
El model s’entrena de manera auto-supervisada sobre volums massius de text — predient el token següent, sense etiquetes humanes. El resultat és un model preentrenat que no s’usa directament com a classificador: el desenvolupador no entrena des de zero, sinó que configura el comportament via prompting, RAG (retrieval-augmented generation, per incorporar coneixement extern) o fine-tuning.
- Tècniques: transformadors, prompting, fine-tuning, RAG.
- Àmbits: generació de text, extracció d’informació, assistència interactiva, agents.
Híbrid
Combina regles i models apresos. És el paradigma dominant en producció real: gairebé cap sistema ML o LLM s’exposa directament sense cap capa de lògica explícita al voltant.
Els patrons més habituals en la indústria són:
- Guardrails: capes de validació al voltant de la sortida del model — esquema, filtres de contingut, comprovacions de seguretat. El model genera; les regles verifiquen que la sortida és acceptable abans de continuar.
- Routing i fallback: regles que decideixen quan invocar el model i quan no. Si l’entrada és trivial, una regla respon directament. Si el model retorna baixa confiança, el cas s’escala a un model més potent o a revisió humana.
- Threshold i escalat: el model prediu amb un valor de confiança; una regla decideix si la predicció és prou fiable per actuar o si cal intervenció humana. Comú en moderació, diagnosi o aprovació de crèdit.
- Regles de negoci en postprocessament: el model prediu; pricing, límits legals o polítiques de compliance s’apliquen a sobre. El model no és l’última paraula — el sistema sí.
Exemple: un model ML prediu la probabilitat de frau, però una regla fixa bloqueja sempre qualsevol transacció superior a 50.000 € independentment de la predicció.
- Tècniques: guardrails, sistemes de routing i fallback, validació d’esquema, postprocessing estructurat, sistemes de validació multicapa.
- Àmbits: la majoria de sistemes ML i LLMs en producció — on el model prediu però regles, llindars o polítiques filtren o sobresciuen la sortida.
Amb els tres paradigmes clars, és útil veure com es manifesten en sistemes reals abans d’entrar en la mecànica interna.
Exemples de sistemes IA
Amb els paradigmes al cap, ja es pot veure com apareixen en casos reals. Cada exemple apunta a un bloc diferent del material i ajuda a situar el mapa abans d’entrar en la mecànica interna.
Filtratge de spam
Un sistema de spam no es programa bé amb regles fixes perquè els remitents i patrons canvien constantment. Amb ML, el sistema aprèn a partir d’exemples etiquetats i pot generalitzar a missatges nous.
Predicció tabular
Un model de predicció de risc de crèdit o de rotació de clients (churn) és el cas paradigmàtic del ML clàssic: files amb columnes numèriques i categòriques, un resultat conegut per a cada exemple i un model que aprèn a generalitzar. La majoria dels algoritmes de ba1 estan dissenyats per a aquest tipus de problema.
Model que degrada en producció
Un model de detecció de frau entrenat fa sis mesos pot deixar de funcionar bé no perquè el codi falli, sinó perquè els patrons de frau han canviat. Detectar aquest drift, mesurar-lo i decidir quan reentrenar és el nucli del que cobreix ba2.
Extracció de dades amb LLMs
Quan l’entrada és text lliure i heterogeni, un LLM pot convertir documents desordenats en sortida estructurada: camps, categories, resums o accions. Aquest és un dels motius pels quals els LLMs han canviat moltes arquitectures de producte.
Com funciona un sistema IA
Més enllà del paradigma, tots aquests sistemes comparteixen una estructura interna semblant en producció. Entendre-la ajuda a saber on intervenir quan alguna cosa falla.
- Entrada: rebre i validar el que arriba — format, tipus, rang de valors esperats.
- Preparació i representació: transformar les dades al format que el model necessita. Tokenització, normalització, construcció del prompt, extracció de features — tot passa aquí.
- Inferència: cridar el model i obtenir una sortida. És la caixa negra: donat un input representat, el model retorna una predicció, una generació o una puntuació.
- Postprocessing i validació: interpretar, filtrar i formatar la resposta — parsejar JSON, aplicar llindars, rebutjar sortides invàlides, enriquir amb dades externes.
L’entrenament és una fase separada que passa fora d’aquest pipeline — abans del desplegament, o periòdicament per reentrenar. Confondre entrenament amb inferència és un dels errors conceptuals més habituals quan s’explica com funciona un sistema IA.
Representació de dades
El pas de representació és crític perquè el format de les dades determina quins sistemes té sentit construir:
- Dades tabulars: files i columnes amb camps numèrics o categòrics. Funcionen molt bé per a problemes de negoci, logs, sensors, CRM o predicció estructurada.
- Embeddings: vectors densos que capturen semblança semàntica. Molt útils per a cerca semàntica, classificació textual estable i RAG.
- Tensors: arrays multidimensionals que fan possible el deep learning en imatges, àudio i seqüències.
- Text i tokens: els LLMs treballen amb text convertit en tokens (unitats textuals petites que el model processa i genera). La longitud del context és una restricció directa.
- Grafos de coneixement: quan les relacions entre entitats importen, els grafos i les ontologies permeten representar coneixement explícit i traçable. Útils en domini estructurat i regulat.
Com s’avalua un model de ML
Amb el pipeline clar, el pas següent és saber mesurar si el model funciona bé. Tres conceptes que apareixen en gairebé tot projecte de ML i que cal tenir clars des del principi.
Overfitting i underfitting
Un model pot fallar de dues maneres oposades. Si és massa complex o s’entrena massa, pot memoritzar els exemples d’entrenament en comptes d’aprendre patrons generals — és l’overfitting. Si és massa simple, no captura prou estructura i falla tant en entrenament com en dades noves — és l’underfitting. Trobar l’equilibri és un dels reptes centrals del ML.
Divisió train / validació / test
Per saber si un model generalitza, cal avaluar-lo en dades que no ha vist durant l’entrenament. La pràctica estàndard és dividir el conjunt de dades en tres parts: train (per aprendre), validació (per ajustar hiperparàmetres i comparar models) i test (per mesurar el rendiment final, un sol cop). Usar el conjunt de test per prendre decisions de disseny invalida la mesura.
Mètriques d’avaluació
“El model encerta” no és una mesura útil si no saps en quins casos s’equivoca ni quant costa cada error. Les mètriques principals varien segons la tasca:
- Classificació: accuracy, precisió, recall, F1, AUC-ROC.
- Regressió: MAE, RMSE, R².
- Ranking i recomanació: NDCG, MAP.
L’elecció de la mètrica és una decisió de disseny: un sistema mèdic on els falsos negatius són crítics requereix una mètrica diferent d’un filtre de spam on els falsos positius molesten l’usuari.
Com funcionen els LLMs
Els models fundacionals s’avaluen i s’operen de manera diferent del ML clàssic. Tres conceptes del model en si que cal entendre abans d’entrar en patrons de sistema.
Finestra de context
Tot LLM té un límit màxim de text que pot processar de cop — entrada i sortida junts. Aquesta restricció condiciona moltes decisions d’arquitectura: per què existeix RAG, per què els documents llargs necessiten fragmentació (chunking) i per què la longitud del prompt té cost directe en latència i preu.
Temperatura i sampling
La temperatura controla si el model dona una sortida determinista o variada. Un valor baix fa que el model triï sempre les opcions més probables — útil per a extracció estructurada o codi. Un valor alt introdueix més variació — útil per a tasques creatives. És un dels primers paràmetres que cal entendre quan es passa a producció.
Prompting vs fine-tuning
Quan cal adaptar el comportament d’un LLM hi ha dues vies principals. El prompting canvia les instruccions i el context sense tocar el model — és ràpid, flexible i no requereix dades d’entrenament. El fine-tuning ajusta els pesos del model amb exemples nous — és més costós però pot donar més control sobre format, to o domini específic. La majoria de casos de producte comencen amb prompting i recorren al fine-tuning només si les limitacions ho justifiquen.
Data de tall i RAG
El coneixement d’un LLM és estàtic: el model sap el que va veure durant l’entrenament i res del que ha passat després. Aquesta data de tall (cutoff date) significa que el model no coneix esdeveniments recents, documentació actualitzada ni dades internes de l’organització.
RAG (retrieval-augmented generation) és la solució habitual: en lloc d’intentar que el model “sàpiga” més coses, el sistema recupera els documents rellevants en el moment de la consulta i els inclou al context. El model genera a partir d’informació fresca sense necessitat de reentrenar. Això explica per què RAG és una de les peces més habituals en sistemes LLM en producció.
Com abordar un projecte d’IA
Escollir el nivell adequat
El punt de partida no és “usar un LLM sempre”, sinó trobar l’equilibri entre simplicitat, control i capacitat. Una escala pràctica:
Regles deterministes
→ Embeddings + classificador
→ Model petit o local
→ LLM amb prompting
→ LLM frontier via API
Aquí, prompting vol dir fer servir instruccions en text com a interfície principal; embeddings són representacions vectorials que capturen semblança semàntica entre textos.
L’elecció depèn sobretot de quatre factors:
- Format de l’entrada: dades tabulars, text lliure, documents, imatges o fluxos mixtos
- Estabilitat de la tasca: categories estables o taxonomies canviants
- Volum i cost: inferència ocasional o a gran escala
- Control i privacitat: dades sensibles, requisits reguladors o restriccions d’infraestructura
De la idea al sistema
Un cop saps el nivell adequat, les preguntes que cal respondre abans de triar tecnologia concreta són:
- Quina és la tasca exacta?
- Quines dades tens i amb quin nivell de qualitat?
- Quina és la baseline més simple que funciona?
- Com mesuraràs si el sistema és bo?
- Què passarà quan canviïn les dades, el context o els usuaris?
- Com controlaràs costos, errors i riscos?
Aquestes preguntes connecten directament amb els tres blocs:
- ba1 respon al problema de com aprèn un model
- ba2 respon al problema de com el fas viable en producció
- llms respon al problema de com dissenyar sistemes moderns amb llenguatge, retrieval i eines
Cicle de vida real
Els projectes d’IA no acostumen a seguir una seqüència lineal perfecta. La pràctica real és iterativa.
- Definir el problema: classificació, regressió, extracció, generació, detecció d’anomalies o assistència interactiva.
- Entendre les dades: qualitat, cobertura, biaixos, buits, etiquetes i representativitat. En molts projectes, aquesta és la part que més temps consumeix.
- Escollir una baseline: la pregunta bona no és “quin model és més potent?”, sinó “quin és el punt de partida més simple que em dona una mesura fiable?”.
- Iterar i avaluar: en ML clàssic, mètriques, validació i experimentació. En LLMs, prompts, evals, routing i comparació amb gold sets (un petit conjunt curat de casos amb la resposta esperada).
- Posar en producció: quan el sistema surt del notebook, apareixen costos, latència, observabilitat, manteniment i governança.
- Monitoritzar i actualitzar: els sistemes IA canvien amb les dades, amb els usuaris i fins i tot amb els proveïdors de model. La producció no és un final, és una nova fase.
Pràctiques que sostenen el sistema
Més enllà del cicle de vida, hi ha un conjunt de pràctiques transversals que diferencien els sistemes ben construïts dels que fallen en producció:
- Sortida estructurada: per integrar models amb codi i APIs de manera fiable
- Retrieval / RAG: per portar coneixement actualitzat al sistema
- Evals: per mesurar comportament abans de desplegar i després de cada canvi
- Routing i fallback: per decidir quan un cas passa a un model més potent o a un flux més barat. Routing és l’encaminament automàtic del cas cap al camí adequat; fallback és la via de seguretat si el camí principal falla.
- Sandboxing: per limitar què pot fer el model o l’agent quan actua sobre sistemes reals
- Observabilitat: per veure què passa en prompts, traces, errors i costos
Limitacions i riscos
Cap d’aquests sistemes és màgic. La fiabilitat no ve del model — ve del sistema sencer, i el sistema pot fallar de maneres que el model, per si sol, no pot prevenir.
Els riscos més importants:
- Hallucinations: el model pot produir sortides plausibles però incorrectes
- Bias: les dades i les decisions poden reflectir desigualtats o errors sistemàtics
- Drift: el comportament pot degradar-se amb el temps, sovint perquè les dades o l’entorn canvien
- Prompt injection: instruccions malicioses amagades en contingut extern que intenten desviar el comportament del model. Especialment rellevant en agents que llegeixen documents o pàgines web.
- Privacitat i governança: cal saber quines dades entren al sistema i què en surt
Human oversight
En sistemes sensibles, el model no ha de ser l’última paraula: human in the loop (la persona decideix), human on the loop (supervisa i pot intervenir) o human out of the loop (només per tasques no crítiques i ben acotades).
Bias i fairness
La qüestió no és només si el sistema “encerta”, sinó a qui afecta quan s’equivoca. Les dades poden reflectir decisions passades, infrarepresentar grups o introduir error sistemàtic en la mesura.
Privacitat
Les decisions de dades són també decisions d’arquitectura. Minimització, retenció i anonimització formen part del disseny responsable; quan cal, la inferència local és una opció.
Tancar el mapa
En resum, el patró que recorre tot el material és aquest: triar el paradigma més simple que resolgui el cas, representar bé les dades, mesurar amb criteri i envoltar el model amb validació, observabilitat i governança. Quan això no és suficient, llavors té sentit pujar de nivell.
L’ecosistema canvia ràpidament. Les categories que importa tenir clares són ML clàssic (models supervisats, validació i mètriques), deep learning (xarxes neuronals i tensors), LLMs (prompting, retrieval i agents) i producció (traces, monitoratge, evals i cost).
Regla pràctica: fes servir la tecnologia més petita que pugui resoldre bé el cas d’ús, i reserva els sistemes més grans per quan aportin valor clar.