Estadística i Probabilitat bàsiques
- Probabilitat: Mesurant la Incertesa
- Variables aleatòries
- Mitjana i dispersió
- Distribucions importants
- El Teorema del límit central
- Estadística inferencial
- Tests d’hipòtesi
- Intervals de confiança
- Regressió des de la probabilitat
- Mesurant la incertesa i la informació
- Mostreig i Bootstrapping
- Conceptes avançats per a ML
- Consells pràctics
- Glossari
Probabilitat: Mesurant la Incertesa
Què és realment la probabilitat?
La probabilitat és una mesura numèrica entre 0 i 1 que expressa la plausibilitat que succeeixi un esdeveniment. Una probabilitat de 0 significa impossible, mentre que 1 significa certesa absoluta.
Imagina que llances una moneda. No saps si sortirà cara o creu, però saps que hi ha dues opcions possibles. La probabilitat és simplement una manera de posar un número a aquesta incertesa.
Escala de probabilitat:
- 0 = Impossible (0%)
- 0.5 = Tan probable com no probable (50%)
- 1 = Segur que passa (100%)
Exemple pràctic: Si tens una bossa amb 7 boles vermelles i 3 boles blaves:
- Probabilitat de treure vermella = 7/10 = 0.7 (70%)
- Probabilitat de treure blava = 3/10 = 0.3 (30%)
Notació bàsica
- P(A) = “la probabilitat que passi A”
- P(A o B) o P(A ∪ B) = “la probabilitat que passi A, o B, o ambdós”
- P(A i B) o P(A ∩ B) = “la probabilitat que passin A i B alhora”
Les dues regles d’or
1. Regla de la suma (per coses que NO poden passar alhora):
Si tens dues opcions que s’exclouen mútuament (com cara i creu), sumes les probabilitats:
P(cara o creu) = P(cara) + P(creu) = 0.5 + 0.5 = 1
2. Regla del producte (per coses independents):
Si vols saber la probabilitat que passin dues coses independents, multipliques:
P(dos caps seguits) = P(cap) × P(cap) = 0.5 × 0.5 = 0.25
Exemple visual: Imagina llançar dues monedes. Hi ha 4 resultats possibles:
- Cara-Cara (25%)
- Cara-Creu (25%)
- Creu-Cara (25%)
- Creu-Creu (25%)
Probabilitat condicional: “I si ja sé alguna cosa?”
Ara imagina que algú et diu: “La primera moneda ha sortit cara”. Això canvia les probabilitats!
P(A|B) = “la probabilitat d’A sabent que B ja ha passat”
P(A|B) = P(A i B) / P(B)
Exemple intuïtiu: En un grup de 100 persones:
- 60 són dones, 40 són homes
- De les dones, 20 porten ulleres
- Dels homes, 10 porten ulleres
Si escollim una persona amb ulleres, quina probabilitat hi ha que sigui dona?
- P(dona|ulleres) = P(dona i ulleres)/P(ulleres) = 20/(20+10) = 20/30 = 67%
Per què importa en ML? Quan classifiquem (spam/no spam, gat/gos), constantment preguntem: “donades aquestes característiques, quina és la probabilitat d’aquesta classe?”
Teorema de Bayes
Aquest és possiblement el teorema més important del machine learning:
P(A|B) = P(B|A) × P(A) / P(B)
Versió amb paraules normals:
P(hipòtesi|dades) = P(dades|hipòtesi) × P(hipòtesi) / P(dades)
Exemple del món real - Detecció de spam:
Vols saber: “Aquest email és spam donat que conté la paraula ‘gratis’?”
- P(spam|“gratis”) = el que vols saber
- P(“gratis”|spam) = en quants spams apareix “gratis” (pots comptar-ho!)
- P(spam) = quants emails són spam en general (també pots comptar-ho!)
- P(“gratis”) = en quants emails apareix “gratis” (també comptable!)
Bayes et permet calcular el primer a partir dels altres tres, que són més fàcils d’obtenir de les dades!
Per què és tan potent? Perms actualitzar les nostres creences quan tenim noves dades. És la base de molts algoritmes de ML com Naive Bayes.
Variables aleatòries
Què és una variable aleatòria?
És simplement una manera de convertir resultats en números. Per exemple:
- Llançar una moneda → 0 (creu) o 1 (cara)
- Comptar clients en una botiga → 0, 1, 2, 3, …
- Mesurar temperatura → 18.5°C, 19.2°C, …
Dues famílies: Discretes i Contínues
Variables DISCRETES: prenen valors separats i comptables (com el nombre de clients, el resultat d’un dau). Tenen una funció de massa de probabilitat (PMF): P(X = x)
- Nombre de likes en un post (0, 1, 2, 3…)
- Resultat d’un dau (1, 2, 3, 4, 5, 6)
- Número de vendes en un dia
Variables CONTÍNUES: poden prendre qualsevol valor dins d’un interval (com l’altura, el temps). Tenen una funció de densitat de probabilitat (PDF): f(x)
- Alçada d’una persona (1.75m, 1.8023m…)
- Temps fins que carrega una web (2.3 segons, 2.31 segons…)
- Temperatura
Diferència clau per entendre:
- Discretes: pots fer una llista completa de valors possibles
- Contínues: entre dos valors sempre n’hi ha un altre (infinits valors possibles)
Com descriure una variable aleatòria?
Per discretes - Taula de probabilitats:
| Resultat dau | Probabilitat |
|---|---|
| 1 | 1/6 |
| 2 | 1/6 |
| … | … |
| 6 | 1/6 |
Per contínues - Corba de densitat:
Imagina un histograma molt suavitzat. La àrea sota la corba entre dos valors et dona la probabilitat.
Exemple: L’alçada de persones adultes segueix una corba amb forma de campana (més gent al voltant de 1.70m, menys en els extrems).
Mitjana i dispersió
La mitjana (esperança)
És el valor que esperaries “de mitjana” si repetissis l’experiment moltes vegades.
Per variables discretes:
Mitjana = suma de (cada valor × la seva probabilitat)
Exemple dau honest:
Mitjana = 1×(1/6) + 2×(1/6) + 3×(1/6) + 4×(1/6) + 5×(1/6) + 6×(1/6) = 3.5
Fixa’t: mai sortirà 3.5 en un llançament, però és el valor “central” de tots els resultats!
Per variables contínues: És el “centre de gravetat” de la distribució.
Propietat útil per calcular:
- Mitjana(2X + 3) = 2×Mitjana(X) + 3
Això vol dir que pots calcular mitjanes de transformacions fàcilment!
La variància: “Com de dispersos estan els valors?”
La variància mesura com de lluny estan típicament els valors de la mitjana.
Variància = mitjana de (cada valor - mitjana)²
Per què elevem al quadrat? Perquè així les desviacions positives i negatives no s’anul·len!
Exemple intuïtiu:
Dos casinos:
- Casino A: guanyes 10€ o perds 10€ (mitjana = 0€)
- Casino B: guanyes 1000€ o perds 1000€ (mitjana = 0€)
Ambdós tenen mitjana 0, però el Casino B té molta més variància (és més arriscat!).
Desviació estàndard: La variància en “unitats normals”
Desviació estàndard = √Variància
Per què és útil? Té les mateixes unitats que la variable original.
Si mesures alçades en centímetres:
- La variància està en cm² (difícil d’interpretar)
- La desviació estàndard està en cm (fàcil d’interpretar!)
Regla pràctica: En molts casos, el 68% dels valors cauen dins de “mitjana ± 1 desviació estàndard”.
Covariància i Correlació: “Van juntes?”
Covariància: Mesura si dues variables tendeixen a créixer juntes o en direccions oposades.
- Covariància positiva: quan una puja, l’altra tendeix a pujar
- Covariància negativa: quan una puja, l’altra tendeix a baixar
- Covariància zero: no hi ha relació lineal clara
Problema: La covariància depèn de les unitats de mesura!
Solució: Correlació - és la covariància normalitzada, sempre entre -1 i +1:
Correlació = Covariància / (desv.std(X) × desv.std(Y))
Interpretació visual:
- ρ = +1: Relació lineal perfecta positiva (línia /)
- ρ = -1: Relació lineal perfecta negativa (línia )
- ρ = 0: No hi ha relació lineal (núvol de punts)
- ρ = +0.7: Relació positiva forta però no perfecta
⚠️ Advertència important: Correlació zero NO significa que no hi ha relació! Només que no n’hi ha de lineal. Podria haver-hi una relació corba o qualsevol altra.
Exemple clàssic: Alçada i temperatura exterior. No estan correlacionades, però hi ha estacions (relació no-lineal)!
Distribucions importants
Distribució Normal (Gaussiana): la reina
Com la reconeixeràs: Forma de campana simètrica.
Paràmetres:
- μ (mu): La mitjana (centre de la campana)
- σ (sigma): La desviació estàndard (com d’ampla és)
La regla 68-95-99.7 (memoritza-la!):
- 68% dels valors estan dins de μ ± σ
- 95% estan dins de μ ± 2σ
- 99.7% estan dins de μ ± 3σ
Exemple pràctic: L’alçada d’homes adults:
- Mitjana: 175cm
- Desviació: 7cm
- Això significa que el 68% mesuren entre 168cm i 182cm
Per què és tan important?
-
Molts fenòmens naturals la segueixen: alçades, errors de mesura, soroll en sensors…
-
Teorema del límit central: quan sumes moltes variables aleatòries, el resultat tendeix a ser normal, fins i tot si les variables originals no ho són!
-
Matemàticament tractable: facilita molts càlculs
-
Base de molts algoritmes ML: regressió lineal, LDA, xarxes neuronals amb certs activacions…
En ML: Quan normalitzes dades (z-score), estàs convertint-les a una normal amb μ=0 i σ=1.
Distribució Bernoulli: l’experiment més simple
Situació: Un únic intent amb dos resultats possibles (èxit/fracàs, sí/no, 0/1).
Paràmetre:
- p: probabilitat d’èxit
Exemples:
- Llançar una moneda (p = 0.5)
- Click o no-click en un anunci (p = probabilitat de click)
- Client compra o no compra (p = taxa de conversió)
Propietats:
- Mitjana = p
- Variància = p(1-p)
Curiositat: La variància és màxima quan p=0.5 (màxima incertesa!)
Distribució Binomial: Bernoullis repetides
Situació: Repeteixes un experiment Bernoulli n vegades independentment.
Pregunta: Quants èxits obtinc en total?
Paràmetres:
- n: nombre d’intents
- p: probabilitat d’èxit en cada intent
Exemple: Llances 10 monedes. Quantes surten cara?
- n = 10, p = 0.5
- Mitjana esperada = np = 10 × 0.5 = 5 cares
- Però podries obtenir 3, 4, 5, 6, 7… amb diferents probabilitats
Propietats:
- Mitjana = n × p
- Desviació estàndard = √(np(1-p))
En ML: Útil per modelar tasques de classificació binària repetides.
Distribució de Poisson: comptar esdeveniments rars
Situació: Comptes quants esdeveniments passen en un interval fix (temps, espai…).
Característiques:
- Els esdeveniments són independents
- Passen a una taxa mitjana constant (λ, “lambda”)
- Són relativament rars
Paràmetre:
- λ: nombre mitjà d’esdeveniments en l’interval
Exemples:
- Número de clients que entren en una botiga per hora (λ = 15)
- Número de typos en una pàgina (λ = 2)
- Número de cridades a un call center per minut (λ = 3.5)
Propietat curiosa: Mitjana = Variància = λ
En ML: Útil per dades de recompte, especialment en processament de llenguatge natural (comptar paraules) i anàlisi de sèries temporals.
Distribució Exponencial: “quan arribarà el proper?”
Situació: Mesures el temps fins al proper esdeveniment en un procés de Poisson.
Paràmetre:
- λ: taxa d’esdeveniments (esdeveniments per unitat de temps)
Exemples:
- Temps fins a la propera crida al call center
- Temps de vida d’una bombeta
- Temps fins al proper terratrèmol
Propietat especial: “Sense memòria” - la probabilitat del proper esdeveniment no depèn de quant temps ha passat.
Exemple intuïtiu: Si una bombeta ha durat 1000 hores, la probabilitat que duri 100 hores més és la mateixa que al principi! (Això no és realista per bombetes reals, però sí per alguns processos).
El Teorema del límit central
La idea màgica
Enunciat en paraules simples:
Si agafes moltes mostres aleatòries i calcules la seva mitjana, aquestes mitjanes seguiran una distribució normal, independentment de com sigui la distribució original!
Exemple pas a pas
Imagina que tens una urna amb boles amb números de l’1 al 6 (com un dau). La distribució és plana (tots els valors igual de probables), NO és normal.
Experiment:
- Treu 30 boles (amb reemplaçament) i calcula la mitjana
- Repeteix això 1000 vegades
- Dibuixa un histograma de totes aquestes mitjanes
Resultat màgic: L’histograma de mitjanes tindrà forma de campana (normal)! Encara que la distribució original era plana.
Per què importa?
-
Justifica l’ús de la normal arreu
Molts fenòmens són sumes o mitjanes de molts petits efectes independents:
- El teu pes = genètica + dieta + exercici + stress + son + …
- Error de mesura = error de sensor + vibració + temperatura + …
- Nota d’examen = coneixement + sort en preguntes + estat d’ànim + …
Com que són sumes, tendeixen a ser normals!
-
Permet fer estadística amb mostres
Encara que no sàpigues la distribució de la població, les mitjanes de mostres grans seran (aproximadament) normals. Això permet fer tests d’hipòtesi i intervals de confiança!
-
Explica per què funciona normalitzar dades
En ML, sovint normalitzem les dades assumint normalitat. El TCL ens diu que això sovint és raonable!
Quanta dades necessito?
Regla empírica: Amb n ≥ 30, la distribució de mitjanes ja és força normal, fins i tot si la distribució original és estranya.
Si la distribució original ja és simètrica, potser n’hi ha prou amb n ≥ 10.
Estadística inferencial
El problema fonamental
Vols saber alguna cosa sobre una població (tots els clients, tots els usuaris, totes les peces fabricades), però només pots observar una mostra (uns quants).
Pregunta: Com pots fer afirmacions sobre la població basant-te només en la mostra?
Estimadors: les nostres millors conjectures
Un estimador és una fórmula que usa les dades de la mostra per “endevinar” un valor poblacional.
Exemple clàssic:
- Mitjana poblacional (μ): desconeguda
- Mitjana mostral (x̄): Σxᵢ/n - la pots calcular!
- Usem x̄ com a estimador de μ
Propietats d’un bon estimador
1. No esbiaixat: de mitjana, encerta
Si repeteixes el mostreig moltes vegades, la mitjana de tots els estimadors hauria de ser el valor real.
2. Consistent: millora amb més dades
Amb mostres més grans, l’estimador s’acosta més al valor real.
3. Eficient: té poca variància
Entre dos estimadors no esbiaixats, preferim el que té menys variabilitat.
Exemple intuïtiu d’esbiaixament
Imagina que vols estimar l’alçada mitjana de la població:
- Estimador esbiaixat: Només mesures gent que passa per una botiga de roba de talla gran → sobreestimaràs!
- Estimador no esbiaixat: Esculls persones aleatòriament de tota la població
Màxima versemblança: “què fa més probables les dades?”
La idea: escull el paràmetre que fa que les dades observades siguin més probables.
Exemple senzill:
Tens una moneda i la llances 10 vegades:
- Resultat: 7 cares, 3 creus
Quin valor de p (probabilitat de cara) fa aquest resultat més probable?
- Si p = 0.5: probabilitat d’observar 7 cares = moderat
- Si p = 0.7: probabilitat d’observar 7 cares = ALT
- Si p = 0.9: probabilitat d’observar 7 cares = baix
L’estimador de màxima versemblança seria p = 0.7 (que és exactament 7/10!)
En ML: Gairebé tots els algoritmes d’aprenentatge usen aquest principi! Quan entrenes una xarxa neuronal, estàs buscant els pesos que fan més probables les dades d’entrenament.
Tests d’hipòtesi
És real o és casualitat?
El plantejament
Tens una sospita (hipòtesi) sobre el món. Vols saber si les dades donen suport a aquesta sospita o si podria ser només casualitat.
Estructura:
- H₀ (hipòtesi nul·la): L’afirmació “avorrida” o per defecte (“no hi ha efecte”, “no hi ha diferència”)
- H₁ (hipòtesi alternativa): L’afirmació que creus/vols provar
Exemple concret
Situació: Has fet un canvi a la web (nou botó). Vols saber si millora les conversions.
- H₀: El nou botó NO canvia la taxa de conversió (diferència = 0)
- H₁: El nou botó SÍ canvia la taxa de conversió (diferència ≠ 0)
Dades:
- Abans: 100 conversions de 1000 visites (10%)
- Després: 130 conversions de 1000 visites (13%)
Pregunta: Aquesta diferència del 3% és real o podria haver passat per casualitat?
El p-valor
Què tan estrany és això?
Definició intuïtiva:
Si H₀ fos certa (el botó realment no fa res), quina probabilitat hi hauria d’observar una millora del 3% (o més) només per atzar?
Això és el p-valor.
Interpretació:
- p-valor petit (< 0.05): seria molt estrany veure aquests resultats per pur atzar. Conclusió: probablement el canvi SÍ té un efecte real.
- p-valor gran (> 0.05): aquests resultats podrien passar fàcilment per casualitat. Conclusió: no tenim prou evidència per dir que hi ha un efecte real.
Al nostre exemple del botó:
Si p-valor = 0.03 → Només un 3% de probabilitat que aquesta diferència sigui casualitat
Decisió pràctica:
- p < 0.05 → Rebutgem H₀ → Mantenim el nou botó
- p > 0.05 → No rebutgem H₀ → Potser tornem a l’antic
Analogia: És com preguntar “Quina probabilitat hi ha de trobar 10 cares seguides en 10 llançaments d’una moneda justa?”
- Resposta: 0.001 (molt petit!)
- Conclusió: Probablement la moneda no és justa
Llindar de significació (α)
Habitualment α = 0.05 (5%)
Decisió:
- Si p-valor < 0.05 → Rebutgem H₀ (“Hi ha efecte!”)
- Si p-valor ≥ 0.05 → No rebutgem H₀ (“No hi ha prou evidència”)
IMPORTANT: No rebutjar H₀ NO és el mateix que “acceptar” H₀. Simplement diem que no tenim prou evidència.
Els dos tipus d’error
Error tipus I (fals positiu):
- Rebutges H₀ quan és certa
- “Creus que hi ha efecte, però no n’hi ha”
- Probabilitat = α (per això escollim α petit!)
Error tipus II (fals negatiu):
- No rebutges H₀ quan és falsa
- “No detectes un efecte que SÍ existeix”
- Probabilitat = β
En ML: Aquests errors es relacionen directament amb:
- Fals Positiu = model diu “sí” quan hauria de dir “no”
- Fals Negatiu = model diu “no” quan hauria de dir “sí”
Exemple mèdic:
- Error Tipus I: Diagnostiques malaltia quan el pacient està sa
- Error Tipus II: No diagnostiques malaltia quan el pacient està malalt
Tradeoff: Reduir un error generalment augmenta l’altre!
Intervals de confiança
La idea intuïtiva
En comptes de dir “la mitjana és exactament 175cm”, diem “estic 95% confiat que la mitjana està entre 172cm i 178cm”.
Què significa “95% de confiança”?
Interpretació correcta:
Si repeteixes el mostreig moltes vegades i calcules un interval de confiança cada vegada, el 95% d’aquests intervals contindran el valor poblacional real.
Interpretació INCORRECTA (però comuna):
“Hi ha un 95% de probabilitat que el valor real estigui dins l’interval” ❌
El valor real és fix! La incertesa està en el nostre interval, no en el paràmetre.
Com es calcula? (cas simple)
Per a una mitjana, amb mostra gran:
Interval 95% = x̄ ± 1.96 × (s/√n)
On:
- x̄ = mitjana mostral
- s = desviació estàndard mostral
- n = tamany de la mostra
- 1.96 = valor crític per al 95% (ve de la distribució normal)
Observacions importants:
- L’interval és més estret amb més dades (√n al denominador)
- L’interval és més ample amb més variabilitat (s al numerador)
- Per a 99% de confiança, uses 2.58 en comptes de 1.96 (interval més ample = més segur)
Exemple pràctic
Mesures l’alçada de 100 estudiants:
- Mitjana = 170cm
- Desviació estàndard = 10cm
Interval 95%:
170 ± 1.96 × (10/√100)
= 170 ± 1.96 × 1
= 170 ± 1.96
= [168.04, 171.96]
Conclusió: Estem 95% confiats que l’alçada mitjana de tots els estudiants està entre 168cm i 172cm.
Per què és útil en ML?
- Comunicar incertesa: No només dius “el model prediu 42”, sinó “el model prediu 42 amb interval [38, 46]”
- Comparar models: Pots veure si les diferències són significatives o només soroll
- Avaluar fiabilitat: Intervals amples indiquen alta incertesa
Regressió des de la probabilitat
Què és realment la regressió?
Pregunta bàsica: Vull predir Y (preu d’una casa) a partir de X (metres quadrats).
Idea de regressió: Assumim que hi ha una relació lineal + soroll aleatori:
Y = β₀ + β₁X + ε
On:
- β₀ = intersecció (preu quan X=0)
- β₁ = pendent (quant puja Y per cada unitat de X)
- ε = error aleatori (tot el que no expliquem)
La part probabilística
Assumpcions clau:
- Els errors són aleatoris: ε ~ Normal(0, σ²)
- Els errors són independents: Un error no influeix l’altre
- La variància és constant: σ² és la mateixa per tots els valors de X
Traducció intuïtiva:
Per cada valor de X, Y segueix una distribució normal:
- Centre: β₀ + β₁X (la línia de regressió)
- Amplada: σ (la mateixa per a tots els X)
Visualitza-ho: Imagina una línia recta, i al voltant de cada punt de la línia hi ha una campana de Gauss vertical. Les dades observades estan escampades segons aquestes campanes.
Com trobem els millors β₀ i β₁?
Mètode dels mínims quadrats: minimitzem la suma dels errors al quadrat:
min Σ(yᵢ - (β₀ + β₁xᵢ))²
Per què elevem al quadrat? Per tractar igual errors positius i negatius, i per penalitzar més els errors grans.
Connexió amb probabilitat: Resulta que mínims quadrats és equivalent a màxima versemblança (sota l’assumpció de normalitat)!
Interpretació dels coeficients
β₁ (pendent):
- β₁ = 2000 → “Per cada m² addicional, el preu puja 2000€”
- β₁ = -0.5 → “Per cada hora més de son, la productivitat baixa 0.5 unitats” (relació negativa!)
β₀ (intersecció):
- Sovint no té interpretació pràctica (valor de Y quan X=0 pot ser absurd)
- Però és necessari per fitxar bé la línia
Avaluació del model
R² (R-quadrat): Percentatge de variabilitat de Y explicat per X
- R² = 0: X no explica res de Y
- R² = 1: X explica perfectament Y (tots els punts sobre la línia)
- R² = 0.7: X explica el 70% de la variabilitat de Y
Interpretació pràctica:
- R² < 0.3: Relació dèbil
- R² = 0.5-0.7: Relació moderada
- R² > 0.8: Relació forta
Compte: R² alt no implica causalitat! Només mesura associació.
Inferència sobre els coeficients
No només trobem β₁, també podem:
- Test d’hipòtesi: “És β₁ significativament diferent de 0?” (hi ha relació real?)
- Interval de confiança: “β₁ està probablement entre 1500 i 2500”
Això ens diu si la relació que veiem podria ser casualitat o és real.
Mesurant la incertesa i la informació
Què és l’entropia?
Idea intuïtiva: Mesura com de sorprès estaries de mitjana quan observes el resultat d’una variable aleatòria.
Escenaris extrems:
1. Baixa entropia (poca sorpresa):
- Suposem que tens una moneda molt esbiaixada: 99% cara, 1% creu
- Quasi sempre obtindràs cara → difícilment et sorprèn → entropia baixa
2. Alta entropia (molta sorpresa):
- Suposem que tens una moneda justa: 50% cara, 50% creu
- No pots predir què sortirà → cada llançament pot sorprendre → entropia alta
Fórmula de l’entropia
H(X) = -Σ P(x) × log₂ P(x)
Interpretació: Nombre mitjà de bits necessaris per codificar el resultat.
Exemple numèric simple:
Moneda justa (cara/creu):
H = -[0.5 × log₂(0.5) + 0.5 × log₂(0.5)]
= -[0.5 × (-1) + 0.5 × (-1)]
= 1 bit
Necessites exactament 1 bit per codificar el resultat (0=creu, 1=cara).
Moneda esbiaixada (99% cara, 1% creu):
H = -[0.99 × log₂(0.99) + 0.01 × log₂(0.01)]
≈ 0.08 bits
Necessites molt menys informació perquè gairebé sempre és cara!
Per què importa en ML?
1. Arbres de decisió: L’algorisme escull divisions que maximitzen la reducció d’entropia (guany d’informació).
2. Funció de pèrdua per classificació: L’entropia creuada (següent secció) és la loss function més usada!
Entropia Creuada: Comparant Distribucions
Situació: Tens dues distribucions:
- P: La distribució real (veritat)
- Q: La teva predicció (model)
Entropia creuada H(P, Q): Mesura com de bé Q aproxima P.
H(P, Q) = -Σ P(x) × log Q(x)
Interpretació intuïtiva: Si uses la teva predicció Q per codificar dades que realment venen de P, quants bits necessites?
Propietats:
- H(P, Q) ≥ H(P) (sempre igual o més gran que l’entropia de P)
- H(P, Q) = H(P) només si Q = P (predicció perfecta!)
En ML: Binary Cross-Entropy Loss
Per classificació binària (cat/dog):
Loss = -[y × log(ŷ) + (1-y) × log(1-ŷ)]
On:
- y = label real (0 o 1)
- ŷ = predicció del model (probabilitat entre 0 i 1)
Exemples:
Cas 1: y=1 (realment és “1”), ŷ=0.9 (model prediu 90% “1”)
Loss = -[1 × log(0.9) + 0 × log(0.1)] ≈ 0.105 (pèrdua baixa, bona predicció!)
Cas 2: y=1 (realment és “1”), ŷ=0.1 (model prediu 10% “1”)
Loss = -[1 × log(0.1) + 0 × log(0.9)] ≈ 2.303 (pèrdua alta, mala predicció!)
Per què és bona loss function?
- Penalitza molt les prediccions molt confiades però equivocades
- És derivable (necessari per gradient descent)
- Té interpretació probabilística clara
Divergència de Kullback-Leibler (KL)
Mesura “com de diferent” és Q de P:
KL(P || Q) = Σ P(x) × log(P(x)/Q(x))
Propietats importants:
- KL(P || Q) ≥ 0 sempre
- KL(P || Q) = 0 si i només si P = Q
- NO és simètrica: KL(P || Q) ≠ KL(Q || P)
Relació amb entropia creuada:
KL(P || Q) = H(P, Q) - H(P)
Per tant, minimitzar entropia creuada és equivalent a minimitzar divergència KL!
En ML: Usada en Variational Autoencoders (VAEs), regularització de models, i comparació de distribucions.
Mostreig i Bootstrapping
Per què mostrejar?
Sovint és impossible o massa car observar tota la població:
- Tots els usuaris potencials d’una app (encara no existeixen!)
- Totes les peces que produirà una fàbrica
- Totes les possibles condicions meteorològiques
Solució: Agafem una mostra representativa i fem inferències.
Tipus de mostreig
1. Mostreig aleatori simple:
- Cada element té la mateixa probabilitat de ser escollit
- El més honest però potser no el més eficient
2. Mostreig estratificat:
- Divideixes la població en grups (estrats)
- Mostrejes proporcionalment de cada grup
Exemple: Enquesta d’opinió:
- Estrats: homes/dones, grups d’edat, regions
- Assegures representació de tots els grups
3. Mostreig sistemàtic:
- Esculls cada k-èsim element
- Exemple: Cada 10è client que entra
Risc: Si hi ha patrons periòdics, pots esbiaixar-te!
Bootstrapping: “Crear dades de dades”
El problema: Tens una mostra, però vols saber com de fiable és el teu estimador.
Solució màgica: Remostrejar amb reemplaçament de les teves pròpies dades!
Procediment:
- Tens n dades originals
- Crees una nova mostra de n elements triant aleatòriament amb reemplaçament
- Calcules l’estadístic d’interès (mitjana, mediana, etc.)
- Repeteixes passos 2-3 unes 1000-10000 vegades
- Ara tens una distribució de l’estadístic!
Exemple:
Dades originals: [2, 4, 6, 8, 10]
Mostra bootstrap 1: [2, 2, 6, 8, 10] → mitjana = 5.6 Mostra bootstrap 2: [4, 6, 6, 8, 10] → mitjana = 6.8 Mostra bootstrap 3: [2, 4, 4, 4, 10] → mitjana = 4.8 … (repeteix 10000 vegades)
Ara pots veure la distribució de les mitjanes i calcular intervals de confiança!
Avantatges:
- No necessites assumpcions sobre la distribució
- Funciona amb qualsevol estadístic (fins i tot mediana, quantils…)
- Molt potent i simple
En ML:
- Bagging: Random Forests usen bootstrapping per crear múltiples arbres
- Validació: Estimar incertesa en mètriques del model
- Feature importance: Veure quines variables són estables
Conceptes avançats per a ML
Biaix-Variància Tradeoff: El gran dilema
Descomposició de l’error:
Quan un model fa prediccions, l’error total es pot descompondre en:
Error Total = Biaix² + Variància + Soroll Irreductible
Què és cada part?
1. Biaix (Bias): Error per assumpcions simplificadores
- Alt biaix: El model és massa simple (underfitting)
- Exemple: Usar una línia recta per dades clarament curves
Analogia: Un tirador que sempre dona molt a la dreta (consistent però equivocat).
2. Variància (Variance): Sensibilitat a variacions en les dades
- Alta variància: El model s’adapta massa a les dades específiques (overfitting)
- Exemple: Un polinomi de grau 20 que passa per tots els punts d’entrenament
Analogia: Un tirador que dona per tot arreu (inconsistent).
3. Soroll irreductible: No depèn del model, és inhrent a les dades
El tradeoff:
- Models simples → Alt biaix, Baixa variància
- Models complexos → Baix biaix, Alta variància
L’art del ML: Trobar el punt dolç al mig!
Visualització mental:
Underfitting ←→ Punt òptim ←→ Overfitting
(massa simple) (massa complex)
Com detectar-ho:
- Underfitting: Error alt tant en train com en test
- Overfitting: Error baix en train, error alt en test
- Punt òptim: Error baix en test (similar a train)
Esperança Condicional: la millor predicció possible
Definició: E[Y|X] és el valor esperat de Y per un valor donat de X.
Per què és important:
E[Y|X] és la millor predicció possible de Y donat X (en sentit de mínim error quadràtic).
Traducció: Si poguessis saber la veritable distribució de P(Y|X), la millor predicció seria la mitjana d’aquesta distribució.
Exemple:
Predius salari (Y) a partir d’anys d’experiència (X=5):
- Algunes persones amb X=5 guanyen 30k
- Altres guanyen 35k, 40k, 32k…
- La millor predicció és E[Y|X=5] = mitjana de tots aquests salaris
En ML: El que realment estem intentant aprendre és E[Y|X]! Però només tenim mostres finites, no la distribució completa.
Llei dels grans nombres
Per què més dades és millor?
Enunciat intuïtiu:
Quan augmentes el tamany de la mostra, la mitjana mostral convergeix al valor real.
Visualitza-ho:
- Llances una moneda 10 vegades → Potser obtens 7 cares (70%)
- Llances 100 vegades → Obtens 53 cares (53%)
- Llances 1000 vegades → Obtens 501 cares (50.1%)
- Llances 10000 vegades → Obtens 5003 cares (50.03%)
Com més llances, més proper a la veritat (50%)!
En ML:
- Més dades d’entrenament → millors estimacions dels paràmetres
- Justifica per què datasets grans funcionen millor
- Però compte: necessites dades representatives, no només moltes!
Consells pràctics
Sempre visualitza primer
Abans de fer qualsevol test o model:
- Histogrames per veure distribucions
- Scatter plots per veure relacions
- Box plots per detectar outliers
Per què? Els ulls detecten patrons que els números no mostren.
Comprova assumpcions
Molts mètodes assumeixen:
- Normalitat
- Independència
- Variància constant
No assumeixis, comprova! Tests de normalitat, gràfics residuals, etc.
Correlació ≠ Causalitat
Exemple clàssic: Vendes de gelats i ofegaments estan correlacionats.
Causa real? Ambdós augmenten a l’estiu (variable oculta: temperatura)!
En ML: Els models troben correlacions, no causes. Tingues cura interpretant resultats.
Outliers: No els eliminis automàticament
Poden ser:
- Errors: Typo, sensor defectuós → Elimina’ls
- Dades valuoses: Fraus, esdeveniments rars → Mantén-los!
Investiga abans d’eliminar.
Normalització i Escala
Molts algoritmes (KNN, SVM, xarxes neuronals) són sensibles a l’escala:
Opcions:
- Z-score: (x - μ) / σ → Mitjana 0, desviació 1
- Min-Max: (x - min) / (max - min) → Entre 0 i 1
Quan? Sempre que les features tinguin escales molt diferents.
Validació Creuada: La Teva Millor Amiga
No et refis només de l’error d’entrenament!
- Divideix dades en train/validation/test
- Usa k-fold cross-validation
- Prova en dades que el model no ha vist mai
Simplicitat primer
Principi d’Occam: Entre dos models amb rendiment similar, escull el més simple.
Per què?
- Més interpretable
- Menys propensos a overfitting
- Més fàcil de debugar i mantenir
Comença amb regressió lineal abans de provar xarxes neuronals!
Quantifica la incertesa
No diguis només “la predicció és 42”:
- Dona intervals de confiança
- Mostra probabilitats
- Comunica el risc
Especialment important en aplicacions crítiques (medicina, finances).
Itera i valida constantment
El ML és experimental:
- Prova diferents models
- Ajusta hiperparàmetres
- Valida en dades noves
- Monitora en producció
Documenta les teves assumpcions
Escriu què has assumit:
- Distribució de les dades
- Independència de features
- Estabilitat temporal
Per què? Quan les coses fallen, sabràs on buscar!
Glossari
Variable aleatòria: Resultat numèric d’un procés aleatori
Esperança (E[X]): Valor mitjà esperat
Variància: Mesura de dispersió al voltant de la mitjana
Desviació estàndard: Arrel quadrada de la variància
Correlació: Mesura de relació lineal entre dues variables (-1 a +1)
P-valor: Probabilitat d’observar dades tan extremes si H₀ fos certa
Interval de confiança: Rang on esperem trobar el paràmetre real amb cert nivell de confiança
Biaix: Error sistemàtic del model (underfitting)
Variància: Sensibilitat del model a variacions en les dades (overfitting)
Entropia: Mesura de incertesa o informació
Màxima versemblança: Escollir paràmetres que fan més probables les dades observades