Lineaire Regressie


Inleiding
In dit artikel wordt een handige formule afgeleid voor de regressielijn door een puntenwolk.

Gegeven zijn een aantal punten (xi, yi)...waarbij i = 1,2,...,n
Gevraagd wordt de lijn y = ax + b waarvoor de afwijking met deze punten minimaal is.

Een veelgebruikte maat voor de afwijking is de som van de kwadraten van de verschillen:
    d12 + d22 + ..... + dn2
in het geval van n punten.

Nu geldt voor punt i:
    di = yi - (axi + b)
Voordat we verder gaan, eerst wat notatie en rekenregels invoeren.

Definitie
    som:
    S xi = x1+ x2 + .... + xn

    gemiddelde:
    x
     = 
    Σ xi
    n
Rekenregels
    S (xi + yi) = S xi + S yi

    en als c een constante is:

    S cxi = c S xi
    en
    S c = n c

    uit het gemiddelde volgt nog:
    Σ xi
     = n 
    x
toepassing:
    Σ
    x
     
    y
     = n 
    x
     
    y
     = 
    y
     
    Σ xi
De formules voor a en b van regressielijn y = ax + b
De functie f(a,b) van de som van de kwadratische afwijkingen van punten 1..n is:
    f (a , b)
     = 
    Σ (yi − (a xi + b)) 2
f(a,b) differentiŽren we eerst naar a, waarbij b constant wordt gehouden en daarna naar b, waarbij a constant wordt gehouden.

differentiŽren naar a:
    f 'a(a,b) =
    Σ (yi − (a xi + b)) · −xi
differentiŽren naar b:
    f 'b(a,b) =
    Σ (yi − (a xi + b)) · −1
Voor de beste benadering, dus kleinste kwadratische afwijking, moeten beide afgeleiden = 0 zijn.
Dat levert op het stelsel vergelijkingen:
    Σ (xi yi − a xi 2 − b xi)
     = 0
    ...................1)
    Σ (yi − a xi − b)
     = 0
    ....................2)
Uit ....2) volgt
    Σ yi
     − a 
    Σ xi
     − b n = 0

    Σ yi
    n
     − 
    Σ xi
    n
     − b = 0


    b = 
    y
     − a 
    x
    ................3)
Dit resultaat voor b vullen we in bij ........1)
    Σ (xi yi − a xi 2 − (
    y
     − a 
    x
    ) xi)
     = 0

    Σ (xi yi − a xi 2 − 
    y
     xi + a 
    x
     xi)
     = 0

    Σ xi yi
     − a 
    Σ xi 2
     − 
    y
     
    Σ xi
     + a 
    x
     
    Σ xi
     = 0

    Σ xi yi
     − a (
    Σ xi 2
     − 
    x
     
    Σ xi
    ) − 
    y
     
    Σ xi
     = 0

    a (
    Σ xi 2
     − 
    x
     
    Σ xi
    ) = 
    Σ xi yi
     − 
    y
     
    Σ xi

    a = 
    Σ xi yi
     − 
    y
     
    Σ xi
    Σ xi 2
     − 
    x
     
    Σ xi
In principe zijn nu formules voor a en b gevonden.
De bovenstaande waarde van a kan immers bij .......3) worden ingevuld om b te berekenen.
Met wat gegoochel kan de formule voor a echter in een eleganter vorm worden gegoten.
We pakken teller en noemer afzonderlijk aan.

1. de teller
    Σ xi yi
     − 
    y
     
    Σ xi
    =
    Σ (xi yi − 
    y
     xi − 
    x
     
    y
     + 
    x
     
    y
    )
    =
    Σ (xi yi − 
    y
     xi − 
    x
     yi + 
    x
     
    y
    )
    =
    Σ (xi − 
    x
    )
     · (yi − 
    y
    )
2. de noemer
    Σ xi 2
     − 
    x
     
    Σ xi
    =
    Σ (xi 2 − 
    x
     xi)
    =
    Σ (xi 2 − 2 
    x
     xi + 
    x
     xi)
    =
    Σ (xi 2 − 2 
    x
     xi + (
    x
    ) 2)
    =
    Σ (xi − 
    x
    ) 2
samengevat:
    a = 
    Σ (xi − 
    x
    )
     · (yi − 
    y
    )
    Σ (xi − 
    x
    ) 2


    b = 
    y
     − a 
    x

Opmerking:
Kijk [hier] voor een artikel over de beste benadering van een puntenwolk door een n-de graads kromme.
Het is een mooie toepassing van de lineaire algebra.