Estadística i Probabilitat bàsiques

Probabilitat: Mesurant la Incertesa
Variables aleatòries
Mitjana i dispersió
Distribucions importants
El Teorema del límit central
Estadística inferencial
Tests d’hipòtesi
Intervals de confiança
Regressió des de la probabilitat
Mesurant la incertesa i la informació
Mostreig i Bootstrapping
Conceptes avançats per a ML
Consells pràctics
Glossari

Probabilitat: Mesurant la Incertesa

Què és realment la probabilitat?

La probabilitat és una mesura numèrica entre 0 i 1 que expressa la plausibilitat que succeeixi un esdeveniment. Una probabilitat de 0 significa impossible, mentre que 1 significa certesa absoluta.

Imagina que llances una moneda. No saps si sortirà cara o creu, però saps que hi ha dues opcions possibles. La probabilitat és simplement una manera de posar un número a aquesta incertesa.

Escala de probabilitat:

0 = Impossible (0%)
0.5 = Tan probable com no probable (50%)
1 = Segur que passa (100%)

Exemple pràctic: Si tens una bossa amb 7 boles vermelles i 3 boles blaves:

Probabilitat de treure vermella = 7/10 = 0.7 (70%)
Probabilitat de treure blava = 3/10 = 0.3 (30%)

Notació bàsica

P(A) = “la probabilitat que passi A”
P(A o B) o P(A ∪ B) = “la probabilitat que passi A, o B, o ambdós”
P(A i B) o P(A ∩ B) = “la probabilitat que passin A i B alhora”

Les dues regles d’or

1. Regla de la suma (per coses que NO poden passar alhora):

Si tens dues opcions que s’exclouen mútuament (com cara i creu), sumes les probabilitats:


P(cara o creu) = P(cara) + P(creu) = 0.5 + 0.5 = 1

2. Regla del producte (per coses independents):

Si vols saber la probabilitat que passin dues coses independents, multipliques:


P(dos caps seguits) = P(cap) × P(cap) = 0.5 × 0.5 = 0.25

Exemple visual: Imagina llançar dues monedes. Hi ha 4 resultats possibles:

Cara-Cara (25%)
Cara-Creu (25%)
Creu-Cara (25%)
Creu-Creu (25%)

Probabilitat condicional: “I si ja sé alguna cosa?”

Ara imagina que algú et diu: “La primera moneda ha sortit cara”. Això canvia les probabilitats!

P(A|B) = “la probabilitat d’A sabent que B ja ha passat”


P(A|B) = P(A i B) / P(B)

Exemple intuïtiu: En un grup de 100 persones:

60 són dones, 40 són homes
De les dones, 20 porten ulleres
Dels homes, 10 porten ulleres

Si escollim una persona amb ulleres, quina probabilitat hi ha que sigui dona?


- P(dona|ulleres) = P(dona i ulleres)/P(ulleres) = 20/(20+10) = 20/30 = 67%

Per què importa en ML? Quan classifiquem (spam/no spam, gat/gos), constantment preguntem: “donades aquestes característiques, quina és la probabilitat d’aquesta classe?”

Teorema de Bayes

Aquest és possiblement el teorema més important del machine learning:


P(A|B) = P(B|A) × P(A) / P(B)

Versió amb paraules normals:


P(hipòtesi|dades) = P(dades|hipòtesi) × P(hipòtesi) / P(dades)

Exemple del món real - Detecció de spam:

Vols saber: “Aquest email és spam donat que conté la paraula ‘gratis’?”

P(spam|“gratis”) = el que vols saber
P(“gratis”|spam) = en quants spams apareix “gratis” (pots comptar-ho!)
P(spam) = quants emails són spam en general (també pots comptar-ho!)
P(“gratis”) = en quants emails apareix “gratis” (també comptable!)

Bayes et permet calcular el primer a partir dels altres tres, que són més fàcils d’obtenir de les dades!

Per què és tan potent? Perms actualitzar les nostres creences quan tenim noves dades. És la base de molts algoritmes de ML com Naive Bayes.

Variables aleatòries

Què és una variable aleatòria?

És simplement una manera de convertir resultats en números. Per exemple:

Llançar una moneda → 0 (creu) o 1 (cara)
Comptar clients en una botiga → 0, 1, 2, 3, …
Mesurar temperatura → 18.5°C, 19.2°C, …

Dues famílies: Discretes i Contínues

Variables DISCRETES: prenen valors separats i comptables (com el nombre de clients, el resultat d’un dau). Tenen una funció de massa de probabilitat (PMF): P(X = x)

Nombre de likes en un post (0, 1, 2, 3…)
Resultat d’un dau (1, 2, 3, 4, 5, 6)
Número de vendes en un dia

Variables CONTÍNUES: poden prendre qualsevol valor dins d’un interval (com l’altura, el temps). Tenen una funció de densitat de probabilitat (PDF): f(x)

Alçada d’una persona (1.75m, 1.8023m…)
Temps fins que carrega una web (2.3 segons, 2.31 segons…)
Temperatura

Diferència clau per entendre:

Discretes: pots fer una llista completa de valors possibles
Contínues: entre dos valors sempre n’hi ha un altre (infinits valors possibles)

Com descriure una variable aleatòria?

Per discretes - Taula de probabilitats:

Resultat dau	Probabilitat
1	1/6
2	1/6
…	…
6	1/6

Per contínues - Corba de densitat:

Imagina un histograma molt suavitzat. La àrea sota la corba entre dos valors et dona la probabilitat.

Exemple: L’alçada de persones adultes segueix una corba amb forma de campana (més gent al voltant de 1.70m, menys en els extrems).

Mitjana i dispersió

La mitjana (esperança)

És el valor que esperaries “de mitjana” si repetissis l’experiment moltes vegades.

Per variables discretes:


Mitjana = suma de (cada valor × la seva probabilitat)

Exemple dau honest:


Mitjana = 1×(1/6) + 2×(1/6) + 3×(1/6) + 4×(1/6) + 5×(1/6) + 6×(1/6) = 3.5

Fixa’t: mai sortirà 3.5 en un llançament, però és el valor “central” de tots els resultats!

Per variables contínues: És el “centre de gravetat” de la distribució.

Propietat útil per calcular:

Mitjana(2X + 3) = 2×Mitjana(X) + 3

Això vol dir que pots calcular mitjanes de transformacions fàcilment!

La variància: “Com de dispersos estan els valors?”

La variància mesura com de lluny estan típicament els valors de la mitjana.


Variància = mitjana de (cada valor - mitjana)²

Per què elevem al quadrat? Perquè així les desviacions positives i negatives no s’anul·len!

Exemple intuïtiu:

Dos casinos:

Casino A: guanyes 10€ o perds 10€ (mitjana = 0€)
Casino B: guanyes 1000€ o perds 1000€ (mitjana = 0€)

Ambdós tenen mitjana 0, però el Casino B té molta més variància (és més arriscat!).

Desviació estàndard: La variància en “unitats normals”


Desviació estàndard = √Variància

Per què és útil? Té les mateixes unitats que la variable original.

Si mesures alçades en centímetres:

La variància està en cm² (difícil d’interpretar)
La desviació estàndard està en cm (fàcil d’interpretar!)

Regla pràctica: En molts casos, el 68% dels valors cauen dins de “mitjana ± 1 desviació estàndard”.

Covariància i Correlació: “Van juntes?”

Covariància: Mesura si dues variables tendeixen a créixer juntes o en direccions oposades.

Covariància positiva: quan una puja, l’altra tendeix a pujar
Covariància negativa: quan una puja, l’altra tendeix a baixar
Covariància zero: no hi ha relació lineal clara

Problema: La covariància depèn de les unitats de mesura!

Solució: Correlació - és la covariància normalitzada, sempre entre -1 i +1:


Correlació = Covariància / (desv.std(X) × desv.std(Y))

Interpretació visual:

ρ = +1: Relació lineal perfecta positiva (línia /)
ρ = -1: Relació lineal perfecta negativa (línia )
ρ = 0: No hi ha relació lineal (núvol de punts)
ρ = +0.7: Relació positiva forta però no perfecta

⚠️ Advertència important: Correlació zero NO significa que no hi ha relació! Només que no n’hi ha de lineal. Podria haver-hi una relació corba o qualsevol altra.

Exemple clàssic: Alçada i temperatura exterior. No estan correlacionades, però hi ha estacions (relació no-lineal)!

Distribucions importants

Distribució Normal (Gaussiana): la reina

Com la reconeixeràs: Forma de campana simètrica.

Paràmetres:

μ (mu): La mitjana (centre de la campana)
σ (sigma): La desviació estàndard (com d’ampla és)

La regla 68-95-99.7 (memoritza-la!):

68% dels valors estan dins de μ ± σ
95% estan dins de μ ± 2σ
99.7% estan dins de μ ± 3σ

Exemple pràctic: L’alçada d’homes adults:

Mitjana: 175cm
Desviació: 7cm
Això significa que el 68% mesuren entre 168cm i 182cm

Per què és tan important?

Molts fenòmens naturals la segueixen: alçades, errors de mesura, soroll en sensors…
Teorema del límit central: quan sumes moltes variables aleatòries, el resultat tendeix a ser normal, fins i tot si les variables originals no ho són!
Matemàticament tractable: facilita molts càlculs
Base de molts algoritmes ML: regressió lineal, LDA, xarxes neuronals amb certs activacions…

En ML: Quan normalitzes dades (z-score), estàs convertint-les a una normal amb μ=0 i σ=1.

Distribució Bernoulli: l’experiment més simple

Situació: Un únic intent amb dos resultats possibles (èxit/fracàs, sí/no, 0/1).

Paràmetre:

p: probabilitat d’èxit

Exemples:

Llançar una moneda (p = 0.5)
Click o no-click en un anunci (p = probabilitat de click)
Client compra o no compra (p = taxa de conversió)

Propietats:

Mitjana = p
Variància = p(1-p)

Curiositat: La variància és màxima quan p=0.5 (màxima incertesa!)

Distribució Binomial: Bernoullis repetides

Situació: Repeteixes un experiment Bernoulli n vegades independentment.

Pregunta: Quants èxits obtinc en total?

Paràmetres:

n: nombre d’intents
p: probabilitat d’èxit en cada intent

Exemple: Llances 10 monedes. Quantes surten cara?

n = 10, p = 0.5
Mitjana esperada = np = 10 × 0.5 = 5 cares
Però podries obtenir 3, 4, 5, 6, 7… amb diferents probabilitats

Propietats:

Mitjana = n × p
Desviació estàndard = √(np(1-p))

En ML: Útil per modelar tasques de classificació binària repetides.

Distribució de Poisson: comptar esdeveniments rars

Situació: Comptes quants esdeveniments passen en un interval fix (temps, espai…).

Característiques:

Els esdeveniments són independents
Passen a una taxa mitjana constant (λ, “lambda”)
Són relativament rars

Paràmetre:

λ: nombre mitjà d’esdeveniments en l’interval

Exemples:

Número de clients que entren en una botiga per hora (λ = 15)
Número de typos en una pàgina (λ = 2)
Número de cridades a un call center per minut (λ = 3.5)

Propietat curiosa: Mitjana = Variància = λ

En ML: Útil per dades de recompte, especialment en processament de llenguatge natural (comptar paraules) i anàlisi de sèries temporals.

Distribució Exponencial: “quan arribarà el proper?”

Situació: Mesures el temps fins al proper esdeveniment en un procés de Poisson.

Paràmetre:

λ: taxa d’esdeveniments (esdeveniments per unitat de temps)

Exemples:

Temps fins a la propera crida al call center
Temps de vida d’una bombeta
Temps fins al proper terratrèmol

Propietat especial: “Sense memòria” - la probabilitat del proper esdeveniment no depèn de quant temps ha passat.

Exemple intuïtiu: Si una bombeta ha durat 1000 hores, la probabilitat que duri 100 hores més és la mateixa que al principi! (Això no és realista per bombetes reals, però sí per alguns processos).

El Teorema del límit central

La idea màgica

Enunciat en paraules simples:

Si agafes moltes mostres aleatòries i calcules la seva mitjana, aquestes mitjanes seguiran una distribució normal, independentment de com sigui la distribució original!

Exemple pas a pas

Imagina que tens una urna amb boles amb números de l’1 al 6 (com un dau). La distribució és plana (tots els valors igual de probables), NO és normal.

Experiment:

Treu 30 boles (amb reemplaçament) i calcula la mitjana
Repeteix això 1000 vegades
Dibuixa un histograma de totes aquestes mitjanes

Resultat màgic: L’histograma de mitjanes tindrà forma de campana (normal)! Encara que la distribució original era plana.

Per què importa?

Justifica l’ús de la normal arreu

Molts fenòmens són sumes o mitjanes de molts petits efectes independents:
- El teu pes = genètica + dieta + exercici + stress + son + …
- Error de mesura = error de sensor + vibració + temperatura + …
- Nota d’examen = coneixement + sort en preguntes + estat d’ànim + …
Com que són sumes, tendeixen a ser normals!
Permet fer estadística amb mostres

Encara que no sàpigues la distribució de la població, les mitjanes de mostres grans seran (aproximadament) normals. Això permet fer tests d’hipòtesi i intervals de confiança!
Explica per què funciona normalitzar dades

En ML, sovint normalitzem les dades assumint normalitat. El TCL ens diu que això sovint és raonable!

Quanta dades necessito?

Regla empírica: Amb n ≥ 30, la distribució de mitjanes ja és força normal, fins i tot si la distribució original és estranya.

Si la distribució original ja és simètrica, potser n’hi ha prou amb n ≥ 10.

Estadística inferencial

El problema fonamental

Vols saber alguna cosa sobre una població (tots els clients, tots els usuaris, totes les peces fabricades), però només pots observar una mostra (uns quants).

Pregunta: Com pots fer afirmacions sobre la població basant-te només en la mostra?

Estimadors: les nostres millors conjectures

Un estimador és una fórmula que usa les dades de la mostra per “endevinar” un valor poblacional.

Exemple clàssic:

Mitjana poblacional (μ): desconeguda
Mitjana mostral (x̄): Σxᵢ/n - la pots calcular!
Usem x̄ com a estimador de μ

Propietats d’un bon estimador

1. No esbiaixat: de mitjana, encerta

Si repeteixes el mostreig moltes vegades, la mitjana de tots els estimadors hauria de ser el valor real.

2. Consistent: millora amb més dades

Amb mostres més grans, l’estimador s’acosta més al valor real.

3. Eficient: té poca variància

Entre dos estimadors no esbiaixats, preferim el que té menys variabilitat.

Exemple intuïtiu d’esbiaixament

Imagina que vols estimar l’alçada mitjana de la població:

Estimador esbiaixat: Només mesures gent que passa per una botiga de roba de talla gran → sobreestimaràs!
Estimador no esbiaixat: Esculls persones aleatòriament de tota la població

Màxima versemblança: “què fa més probables les dades?”

La idea: escull el paràmetre que fa que les dades observades siguin més probables.

Exemple senzill:

Tens una moneda i la llances 10 vegades:

Resultat: 7 cares, 3 creus

Quin valor de p (probabilitat de cara) fa aquest resultat més probable?

Si p = 0.5: probabilitat d’observar 7 cares = moderat
Si p = 0.7: probabilitat d’observar 7 cares = ALT
Si p = 0.9: probabilitat d’observar 7 cares = baix

L’estimador de màxima versemblança seria p = 0.7 (que és exactament 7/10!)

En ML: Gairebé tots els algoritmes d’aprenentatge usen aquest principi! Quan entrenes una xarxa neuronal, estàs buscant els pesos que fan més probables les dades d’entrenament.

Tests d’hipòtesi

És real o és casualitat?

El plantejament

Tens una sospita (hipòtesi) sobre el món. Vols saber si les dades donen suport a aquesta sospita o si podria ser només casualitat.

Estructura:

H₀ (hipòtesi nul·la): L’afirmació “avorrida” o per defecte (“no hi ha efecte”, “no hi ha diferència”)
H₁ (hipòtesi alternativa): L’afirmació que creus/vols provar

Exemple concret

Situació: Has fet un canvi a la web (nou botó). Vols saber si millora les conversions.

H₀: El nou botó NO canvia la taxa de conversió (diferència = 0)
H₁: El nou botó SÍ canvia la taxa de conversió (diferència ≠ 0)

Dades:

Abans: 100 conversions de 1000 visites (10%)
Després: 130 conversions de 1000 visites (13%)

Pregunta: Aquesta diferència del 3% és real o podria haver passat per casualitat?

El p-valor

Què tan estrany és això?

Definició intuïtiva:

Si H₀ fos certa (el botó realment no fa res), quina probabilitat hi hauria d’observar una millora del 3% (o més) només per atzar?

Això és el p-valor.

Interpretació:

p-valor petit (< 0.05): seria molt estrany veure aquests resultats per pur atzar. Conclusió: probablement el canvi SÍ té un efecte real.
p-valor gran (> 0.05): aquests resultats podrien passar fàcilment per casualitat. Conclusió: no tenim prou evidència per dir que hi ha un efecte real.

Al nostre exemple del botó:

Si p-valor = 0.03 → Només un 3% de probabilitat que aquesta diferència sigui casualitat

Decisió pràctica:

p < 0.05 → Rebutgem H₀ → Mantenim el nou botó
p > 0.05 → No rebutgem H₀ → Potser tornem a l’antic

Analogia: És com preguntar “Quina probabilitat hi ha de trobar 10 cares seguides en 10 llançaments d’una moneda justa?”

Resposta: 0.001 (molt petit!)
Conclusió: Probablement la moneda no és justa

Llindar de significació (α)

Habitualment α = 0.05 (5%)

Decisió:

Si p-valor < 0.05 → Rebutgem H₀ (“Hi ha efecte!”)
Si p-valor ≥ 0.05 → No rebutgem H₀ (“No hi ha prou evidència”)

IMPORTANT: No rebutjar H₀ NO és el mateix que “acceptar” H₀. Simplement diem que no tenim prou evidència.

Els dos tipus d’error

Error tipus I (fals positiu):

Rebutges H₀ quan és certa
“Creus que hi ha efecte, però no n’hi ha”
Probabilitat = α (per això escollim α petit!)

Error tipus II (fals negatiu):

No rebutges H₀ quan és falsa
“No detectes un efecte que SÍ existeix”
Probabilitat = β

En ML: Aquests errors es relacionen directament amb:

Fals Positiu = model diu “sí” quan hauria de dir “no”
Fals Negatiu = model diu “no” quan hauria de dir “sí”

Exemple mèdic:

Error Tipus I: Diagnostiques malaltia quan el pacient està sa
Error Tipus II: No diagnostiques malaltia quan el pacient està malalt

Tradeoff: Reduir un error generalment augmenta l’altre!

Intervals de confiança

La idea intuïtiva

En comptes de dir “la mitjana és exactament 175cm”, diem “estic 95% confiat que la mitjana està entre 172cm i 178cm”.

Què significa “95% de confiança”?

Interpretació correcta:

Si repeteixes el mostreig moltes vegades i calcules un interval de confiança cada vegada, el 95% d’aquests intervals contindran el valor poblacional real.

Interpretació INCORRECTA (però comuna):

“Hi ha un 95% de probabilitat que el valor real estigui dins l’interval” ❌

El valor real és fix! La incertesa està en el nostre interval, no en el paràmetre.

Com es calcula? (cas simple)

Per a una mitjana, amb mostra gran:


Interval 95% = x̄ ± 1.96 × (s/√n)

On:

x̄ = mitjana mostral
s = desviació estàndard mostral
n = tamany de la mostra
1.96 = valor crític per al 95% (ve de la distribució normal)

Observacions importants:

L’interval és més estret amb més dades (√n al denominador)
L’interval és més ample amb més variabilitat (s al numerador)
Per a 99% de confiança, uses 2.58 en comptes de 1.96 (interval més ample = més segur)

Exemple pràctic

Mesures l’alçada de 100 estudiants:

Mitjana = 170cm
Desviació estàndard = 10cm

Interval 95%:


170 ± 1.96 × (10/√100)
= 170 ± 1.96 × 1
= 170 ± 1.96
= [168.04, 171.96]

Conclusió: Estem 95% confiats que l’alçada mitjana de tots els estudiants està entre 168cm i 172cm.

Per què és útil en ML?

Comunicar incertesa: No només dius “el model prediu 42”, sinó “el model prediu 42 amb interval [38, 46]”
Comparar models: Pots veure si les diferències són significatives o només soroll
Avaluar fiabilitat: Intervals amples indiquen alta incertesa

Regressió des de la probabilitat

Què és realment la regressió?

Pregunta bàsica: Vull predir Y (preu d’una casa) a partir de X (metres quadrats).

Idea de regressió: Assumim que hi ha una relació lineal + soroll aleatori:


Y = β₀ + β₁X + ε

On:

β₀ = intersecció (preu quan X=0)
β₁ = pendent (quant puja Y per cada unitat de X)
ε = error aleatori (tot el que no expliquem)

La part probabilística

Assumpcions clau:

Els errors són aleatoris: ε ~ Normal(0, σ²)
Els errors són independents: Un error no influeix l’altre
La variància és constant: σ² és la mateixa per tots els valors de X

Traducció intuïtiva:

Per cada valor de X, Y segueix una distribució normal:

Centre: β₀ + β₁X (la línia de regressió)
Amplada: σ (la mateixa per a tots els X)

Visualitza-ho: Imagina una línia recta, i al voltant de cada punt de la línia hi ha una campana de Gauss vertical. Les dades observades estan escampades segons aquestes campanes.

Com trobem els millors β₀ i β₁?

Mètode dels mínims quadrats: minimitzem la suma dels errors al quadrat:


min Σ(yᵢ - (β₀ + β₁xᵢ))²

Per què elevem al quadrat? Per tractar igual errors positius i negatius, i per penalitzar més els errors grans.

Connexió amb probabilitat: Resulta que mínims quadrats és equivalent a màxima versemblança (sota l’assumpció de normalitat)!

Interpretació dels coeficients

β₁ (pendent):

β₁ = 2000 → “Per cada m² addicional, el preu puja 2000€”
β₁ = -0.5 → “Per cada hora més de son, la productivitat baixa 0.5 unitats” (relació negativa!)

β₀ (intersecció):

Sovint no té interpretació pràctica (valor de Y quan X=0 pot ser absurd)
Però és necessari per fitxar bé la línia

Avaluació del model

R² (R-quadrat): Percentatge de variabilitat de Y explicat per X

R² = 0: X no explica res de Y
R² = 1: X explica perfectament Y (tots els punts sobre la línia)
R² = 0.7: X explica el 70% de la variabilitat de Y

Interpretació pràctica:

R² < 0.3: Relació dèbil
R² = 0.5-0.7: Relació moderada
R² > 0.8: Relació forta

Compte: R² alt no implica causalitat! Només mesura associació.

Inferència sobre els coeficients

No només trobem β₁, també podem:

Test d’hipòtesi: “És β₁ significativament diferent de 0?” (hi ha relació real?)
Interval de confiança: “β₁ està probablement entre 1500 i 2500”

Això ens diu si la relació que veiem podria ser casualitat o és real.

Mesurant la incertesa i la informació

Què és l’entropia?

Idea intuïtiva: Mesura com de sorprès estaries de mitjana quan observes el resultat d’una variable aleatòria.

Escenaris extrems:

1. Baixa entropia (poca sorpresa):

Suposem que tens una moneda molt esbiaixada: 99% cara, 1% creu
Quasi sempre obtindràs cara → difícilment et sorprèn → entropia baixa

2. Alta entropia (molta sorpresa):

Suposem que tens una moneda justa: 50% cara, 50% creu
No pots predir què sortirà → cada llançament pot sorprendre → entropia alta

Fórmula de l’entropia


H(X) = -Σ P(x) × log₂ P(x)

Interpretació: Nombre mitjà de bits necessaris per codificar el resultat.

Exemple numèric simple:

Moneda justa (cara/creu):


H = -[0.5 × log₂(0.5) + 0.5 × log₂(0.5)]
  = -[0.5 × (-1) + 0.5 × (-1)]
  = 1 bit

Necessites exactament 1 bit per codificar el resultat (0=creu, 1=cara).

Moneda esbiaixada (99% cara, 1% creu):


H = -[0.99 × log₂(0.99) + 0.01 × log₂(0.01)]
  ≈ 0.08 bits

Necessites molt menys informació perquè gairebé sempre és cara!

Per què importa en ML?

1. Arbres de decisió: L’algorisme escull divisions que maximitzen la reducció d’entropia (guany d’informació).

2. Funció de pèrdua per classificació: L’entropia creuada (següent secció) és la loss function més usada!

Entropia Creuada: Comparant Distribucions

Situació: Tens dues distribucions:

P: La distribució real (veritat)
Q: La teva predicció (model)

Entropia creuada H(P, Q): Mesura com de bé Q aproxima P.


H(P, Q) = -Σ P(x) × log Q(x)

Interpretació intuïtiva: Si uses la teva predicció Q per codificar dades que realment venen de P, quants bits necessites?

Propietats:

H(P, Q) ≥ H(P) (sempre igual o més gran que l’entropia de P)
H(P, Q) = H(P) només si Q = P (predicció perfecta!)

En ML: Binary Cross-Entropy Loss

Per classificació binària (cat/dog):


Loss = -[y × log(ŷ) + (1-y) × log(1-ŷ)]

On:

y = label real (0 o 1)
ŷ = predicció del model (probabilitat entre 0 i 1)

Exemples:

Cas 1: y=1 (realment és “1”), ŷ=0.9 (model prediu 90% “1”)


Loss = -[1 × log(0.9) + 0 × log(0.1)] ≈ 0.105 (pèrdua baixa, bona predicció!)

Cas 2: y=1 (realment és “1”), ŷ=0.1 (model prediu 10% “1”)


Loss = -[1 × log(0.1) + 0 × log(0.9)] ≈ 2.303 (pèrdua alta, mala predicció!)

Per què és bona loss function?

Penalitza molt les prediccions molt confiades però equivocades
És derivable (necessari per gradient descent)
Té interpretació probabilística clara

Divergència de Kullback-Leibler (KL)

Mesura “com de diferent” és Q de P:


KL(P || Q) = Σ P(x) × log(P(x)/Q(x))

Propietats importants:

KL(P || Q) ≥ 0 sempre
KL(P || Q) = 0 si i només si P = Q
NO és simètrica: KL(P || Q) ≠ KL(Q || P)

Relació amb entropia creuada:


KL(P || Q) = H(P, Q) - H(P)

Per tant, minimitzar entropia creuada és equivalent a minimitzar divergència KL!

En ML: Usada en Variational Autoencoders (VAEs), regularització de models, i comparació de distribucions.

Mostreig i Bootstrapping

Per què mostrejar?

Sovint és impossible o massa car observar tota la població:

Tots els usuaris potencials d’una app (encara no existeixen!)
Totes les peces que produirà una fàbrica
Totes les possibles condicions meteorològiques

Solució: Agafem una mostra representativa i fem inferències.

Tipus de mostreig

1. Mostreig aleatori simple:

Cada element té la mateixa probabilitat de ser escollit
El més honest però potser no el més eficient

2. Mostreig estratificat:

Divideixes la població en grups (estrats)
Mostrejes proporcionalment de cada grup

Exemple: Enquesta d’opinió:

Estrats: homes/dones, grups d’edat, regions
Assegures representació de tots els grups

3. Mostreig sistemàtic:

Esculls cada k-èsim element
Exemple: Cada 10è client que entra

Risc: Si hi ha patrons periòdics, pots esbiaixar-te!

Bootstrapping: “Crear dades de dades”

El problema: Tens una mostra, però vols saber com de fiable és el teu estimador.

Solució màgica: Remostrejar amb reemplaçament de les teves pròpies dades!

Procediment:

Tens n dades originals
Crees una nova mostra de n elements triant aleatòriament amb reemplaçament
Calcules l’estadístic d’interès (mitjana, mediana, etc.)
Repeteixes passos 2-3 unes 1000-10000 vegades
Ara tens una distribució de l’estadístic!

Exemple:

Dades originals: [2, 4, 6, 8, 10]

Mostra bootstrap 1: [2, 2, 6, 8, 10] → mitjana = 5.6 Mostra bootstrap 2: [4, 6, 6, 8, 10] → mitjana = 6.8 Mostra bootstrap 3: [2, 4, 4, 4, 10] → mitjana = 4.8 … (repeteix 10000 vegades)

Ara pots veure la distribució de les mitjanes i calcular intervals de confiança!

Avantatges:

No necessites assumpcions sobre la distribució
Funciona amb qualsevol estadístic (fins i tot mediana, quantils…)
Molt potent i simple

En ML:

Bagging: Random Forests usen bootstrapping per crear múltiples arbres
Validació: Estimar incertesa en mètriques del model
Feature importance: Veure quines variables són estables

Conceptes avançats per a ML

Biaix-Variància Tradeoff: El gran dilema

Descomposició de l’error:

Quan un model fa prediccions, l’error total es pot descompondre en:


Error Total = Biaix² + Variància + Soroll Irreductible

Què és cada part?

1. Biaix (Bias): Error per assumpcions simplificadores

Alt biaix: El model és massa simple (underfitting)
Exemple: Usar una línia recta per dades clarament curves

Analogia: Un tirador que sempre dona molt a la dreta (consistent però equivocat).

2. Variància (Variance): Sensibilitat a variacions en les dades

Alta variància: El model s’adapta massa a les dades específiques (overfitting)
Exemple: Un polinomi de grau 20 que passa per tots els punts d’entrenament

Analogia: Un tirador que dona per tot arreu (inconsistent).

3. Soroll irreductible: No depèn del model, és inhrent a les dades

El tradeoff:

Models simples → Alt biaix, Baixa variància
Models complexos → Baix biaix, Alta variància

L’art del ML: Trobar el punt dolç al mig!

Visualització mental:


Underfitting ←→ Punt òptim ←→ Overfitting
(massa simple)              (massa complex)

Com detectar-ho:

Underfitting: Error alt tant en train com en test
Overfitting: Error baix en train, error alt en test
Punt òptim: Error baix en test (similar a train)

Esperança Condicional: la millor predicció possible

Definició: E[Y|X] és el valor esperat de Y per un valor donat de X.

Per què és important:

E[Y|X] és la millor predicció possible de Y donat X (en sentit de mínim error quadràtic).

Traducció: Si poguessis saber la veritable distribució de P(Y|X), la millor predicció seria la mitjana d’aquesta distribució.

Exemple:

Predius salari (Y) a partir d’anys d’experiència (X=5):

Algunes persones amb X=5 guanyen 30k
Altres guanyen 35k, 40k, 32k…
La millor predicció és E[Y|X=5] = mitjana de tots aquests salaris

En ML: El que realment estem intentant aprendre és E[Y|X]! Però només tenim mostres finites, no la distribució completa.

Llei dels grans nombres

Per què més dades és millor?

Enunciat intuïtiu:

Quan augmentes el tamany de la mostra, la mitjana mostral convergeix al valor real.

Visualitza-ho:

Llances una moneda 10 vegades → Potser obtens 7 cares (70%)
Llances 100 vegades → Obtens 53 cares (53%)
Llances 1000 vegades → Obtens 501 cares (50.1%)
Llances 10000 vegades → Obtens 5003 cares (50.03%)

Com més llances, més proper a la veritat (50%)!

En ML:

Més dades d’entrenament → millors estimacions dels paràmetres
Justifica per què datasets grans funcionen millor
Però compte: necessites dades representatives, no només moltes!

Consells pràctics

Sempre visualitza primer

Abans de fer qualsevol test o model:

Histogrames per veure distribucions
Scatter plots per veure relacions
Box plots per detectar outliers

Per què? Els ulls detecten patrons que els números no mostren.

Comprova assumpcions

Molts mètodes assumeixen:

Normalitat
Independència
Variància constant

No assumeixis, comprova! Tests de normalitat, gràfics residuals, etc.

Correlació ≠ Causalitat

Exemple clàssic: Vendes de gelats i ofegaments estan correlacionats.

Causa real? Ambdós augmenten a l’estiu (variable oculta: temperatura)!

En ML: Els models troben correlacions, no causes. Tingues cura interpretant resultats.

Outliers: No els eliminis automàticament

Poden ser:

Errors: Typo, sensor defectuós → Elimina’ls
Dades valuoses: Fraus, esdeveniments rars → Mantén-los!

Investiga abans d’eliminar.

Normalització i Escala

Molts algoritmes (KNN, SVM, xarxes neuronals) són sensibles a l’escala:

Opcions:

Z-score: (x - μ) / σ → Mitjana 0, desviació 1
Min-Max: (x - min) / (max - min) → Entre 0 i 1

Quan? Sempre que les features tinguin escales molt diferents.

Validació Creuada: La Teva Millor Amiga

No et refis només de l’error d’entrenament!

Divideix dades en train/validation/test
Usa k-fold cross-validation
Prova en dades que el model no ha vist mai

Simplicitat primer

Principi d’Occam: Entre dos models amb rendiment similar, escull el més simple.

Per què?

Més interpretable
Menys propensos a overfitting
Més fàcil de debugar i mantenir

Comença amb regressió lineal abans de provar xarxes neuronals!

Quantifica la incertesa

No diguis només “la predicció és 42”:

Dona intervals de confiança
Mostra probabilitats
Comunica el risc

Especialment important en aplicacions crítiques (medicina, finances).

Itera i valida constantment

El ML és experimental:

Prova diferents models
Ajusta hiperparàmetres
Valida en dades noves
Monitora en producció

Documenta les teves assumpcions

Escriu què has assumit:

Distribució de les dades
Independència de features
Estabilitat temporal

Per què? Quan les coses fallen, sabràs on buscar!

Glossari

Variable aleatòria: Resultat numèric d’un procés aleatori

Esperança (E[X]): Valor mitjà esperat

Variància: Mesura de dispersió al voltant de la mitjana

Desviació estàndard: Arrel quadrada de la variància

Correlació: Mesura de relació lineal entre dues variables (-1 a +1)

P-valor: Probabilitat d’observar dades tan extremes si H₀ fos certa

Interval de confiança: Rang on esperem trobar el paràmetre real amb cert nivell de confiança

Biaix: Error sistemàtic del model (underfitting)

Variància: Sensibilitat del model a variacions en les dades (overfitting)

Entropia: Mesura de incertesa o informació

Màxima versemblança: Escollir paràmetres que fan més probables les dades observades

Keyboard shortcuts

apunts.jg5.dev