Notebook 30
Ajuste de retas (mínimos quadrados, regressão linear)

A tabela e o gráfico a seguir mostram valores medidos para a variável y (posição, por exemplo) em função da variável x (tempo, por exemplo). O gráfico também mostra a "melhor reta" ajustada aos dados de acordo com o método exposto a seguir.

x0,51,52,53,5
y0,82,15,66,4

Uma reta é definida pelo seus coeficientes linear A e angular B segundo a equação:

y=A+Bx

O método dos mínimos quadrados busca encontrar os valores de A e B que minimizam Q:

Q=i(yiy(xi))2

onde (xi,yi) são as coordenadas do ponto conhecido e y(xi)=A+Bxi ao valor da função para xi, de modo que:

Q=i(yiABxi)2

O valor de Q será mínimo quando as suas derivadas parciais em relação a A e a B forem simultaneamente iguais a zero:

QA=iyiABxi=0QB=i(yiABxi)xi=0

ou, equivalentemente:

iyi=AN+Bixiixiyi=Aixi+Bixi2

Os somatórios dependem apenas das coordenadas dos pontos e resultam em quantias (números) bem definidas:

sx=ixi,sy=iyi,sxy=ixiyi,sx2=ixi2

de modo que:

sy=AN+Bsxsxy=Asx+Bsx2

e, finalmente:

A=sysx2sxsxyNsx2(sx)2B=NsxysxsyNsx2(sx)2

Exercícios

  1. Examine o código fonte do documento e modifique-o de modo que imprima os valores de sx, sy, sxy, sx2, A e B (8,0, 14,9, 40,0, 21,0, −0,34 e 2,03, respectivamente).
  2. Examine o código fonte do documento e modifique-o de modo que imprima os valores dos pontos extremos da reta ajustada e para x = 1,0, x = 2,0 e x = 3,0 ((0,5, 0,7), (3,5, 6,8), (1,0, 1,7), (2,0, 3,7) e (3,0, 5,8), respectivamente).
  3. Se: y=A+Bx

    então:

    x=AB+1By=A+By

    de modo que em uma situação ideal:

    B=1BBB=1

    Isso significa que, em princípio, quanto mais próxima da unidade for a grandeza R=BB, melhor a reta encontrada descreve os dados. R também pode ser escrito em termos dos somatórios:

    R=Nsxysxsy(Nsx2(sx)2)(Nsy2(sy)2)

    Faça um programa que encontre o valor de R para o conjunto de dados fornecido (0,971).

  4. Considere a equação para uma grandeza y que varia exponencialmente com x: y=AeBx

    Aplicando o logaritmo obtemos:

    lny=lnA+Bx

    Comparando essa equação à equação de uma reta vemos que se fazemos:

    ylnyAlnABBxxy=A+Bx

    e obtemos:

    A=eAB=B

    Modifique o programa de modo que suponha que os dados obedecem uma relação exponencial y=AeBx e determine os valores de A, B e R (0,66, 0,72 e 0,962, respectivamente) e faça o gráfico lin-log.

  5. Considere a equação para uma grandeza y que é proporcional a uma potência de x: y=AxB

    Aplicando o logaritmo obtemos:

    lny=lnA+Blnx

    Comparando essa equação à equação de uma reta vemos que se fazemos:

    ylnyAlnABBxlnxy=A+Bx

    e obtemos:

    A=eAB=B

    Modifique o programa de modo que suponha que os dados obedecem uma relação exponencial y=AxB e determine os valores de A, B e R (1,64, 1,12 e 0.984, respectivamente) e faça o gráfico log-log.

  6. A partir desses resultados, qual das funções (linear, exponencial e potência) melhor descreve os dados?
  7. As tabelas abaixo contêm os dados do que é conhecido como o quarteto de Anscombe.
    xy
    10,08,0
    8,07,0
    13,07,6
    9,08,8
    11,08,3
    14,010,0
    6,07,2
    4,04,3
    12,010,8
    7,04,8
    5,05,7
    xy
    10,09,1
    8,08,1
    13,08,7
    9,08,8
    11,09,3
    14,08,1
    6,06,1
    4,03,1
    12,09,1
    7,07,3
    5,04,7
    xy
    10,07,5
    8,06,8
    13,012,7
    9,07,1
    11,07,8
    14,08,8
    6,06,1
    4,05,4
    12,08,2
    7,06,4
    5,05,7
    xy
    8,06,6
    8,05,8
    8,07,7
    8,08,8
    8,08,5
    8,07,0
    8,05,3
    19,012,5
    8,05,6
    8,07,9
    8,06,9

    Os quatro conjuntos têm valores essencialmente iguais para todos os descritores estatísticos (valor médio de x, valor médio de y, variância em x, variância em y, correlação entre x e y, coeficientes linear e angular da reta ajustada por mínimos quadrados e valor de R).

    Entretanto, constituem distribuições completamente diferentes. O conjunto de dados foi criado por Francis Anscombe em 1973 [ref] para mostrar que a utilização de descritores estatísticos pode levar a erros grosseiros, e que a elaboração e análise de gráficos é essencial para a realização de análises estatísticas adequadas.

    Faça os gráficos dos quatro conjuntos de dados e da melhor reta ajustada aos dados utilizando o método dos mínimos quadrados.