Notebook 30
Ajuste de retas (mínimos quadrados, regressão linear)

A tabela e o gráfico a seguir mostram valores medidos para a variável $y$ (posição, por exemplo) em função da variável $x$ (tempo, por exemplo). O gráfico também mostra a "melhor reta" ajustada aos dados de acordo com o método exposto a seguir.

Uma reta é definida pelo seus coeficientes linear $A$ e angular $B$ segundo a equação:

$$ y = A + B x $$

O método dos mínimos quadrados busca encontrar os valores de $A$ e $B$ que minimizam $Q$:

$$ Q = \sum_i ( y_i - y(x_i))^2 $$

onde $(x_i,y_i)$ são as coordenadas do ponto conhecido e $y(x_i) = A + B x_i$ ao valor da função para $x_i$, de modo que:

$$ Q = \sum_i ( y_i - A - B x_i)^2 $$

O valor de $Q$ será mínimo quando as suas derivadas parciais em relação a $A$ e a $B$ forem simultaneamente iguais a zero:

\begin{eqnarray} \frac{\partial Q}{\partial A} & = & \sum_i y_i - A - B x_i = 0 \\ \frac{\partial Q}{\partial B} & = & \sum_i (y_i - A - B x_i) x_i = 0 \\ \end{eqnarray}

ou, equivalentemente:

\begin{eqnarray} \sum_i y_i & = & A N + B \sum_i x_i \\ \sum_i x_i y_i & = & A \sum_i x_i + B \sum_i x_i^2 \\ \end{eqnarray}

Os somatórios dependem apenas das coordenadas dos pontos e resultam em quantias (números) bem definidas:

$$ s_x = \sum_i x_i, \,\,\,\,\,\, s_y = \sum_i y_i, \,\,\,\,\,\, s_{xy} = \sum_i x_i y_i, \,\,\,\,\,\, s_{x^2} = \sum_i x_i^2 $$

de modo que:

\begin{eqnarray} s_y & = & A N + B s_x \\ s_{xy} & = & A s_x + B s_{x^2} \\ \end{eqnarray}

e, finalmente:

\begin{eqnarray} A & = & \frac {s_y s_{x^2} - s_x s_{xy}} {N s_{x^2} - (s_x)^2} \\ B & = & \frac {N s_{xy} - s_x s_y} {N s_{x^2} - (s_x)^2} \\ \end{eqnarray}

Exercícios

  1. Examine o código fonte do documento e modifique-o de modo que imprima os valores de $s_x$, $s_y$, $s_{xy}$, $s_{x^2}$, $A$ e $B$ (8,0, 14,9, 40,0, 21,0, −0,34 e 2,03, respectivamente).
  2. Examine o código fonte do documento e modifique-o de modo que imprima os valores dos pontos extremos da reta ajustada e para $x$ = 1,0, $x$ = 2,0 e $x$ = 3,0 ((0,5, 0,7), (3,5, 6,8), (1,0, 1,7), (2,0, 3,7) e (3,0, 5,8), respectivamente).
  3. Se: $$ y = A + Bx $$

    então:

    $$ x = -\frac{A}{B} + \frac{1}{B} y = A' + B' y $$

    de modo que em uma situação ideal:

    $$ B' = \frac{1}{B} \to BB' = 1 $$

    Isso significa que, em princípio, quanto mais próxima da unidade for a grandeza $R = \sqrt{BB'}$, melhor a reta encontrada descreve os dados. $R$ também pode ser escrito em termos dos somatórios:

    $$ R = \frac {N s_{xy} - s_x s_y} {\sqrt{(N s_{x^2} - (s_x)^2) (N s_{y^2} - (s_y)^2)}} $$

    Faça um programa que encontre o valor de $R$ para o conjunto de dados fornecido (0,971).

  4. Considere a equação para uma grandeza $y$ que varia exponencialmente com $x$: $$ y = A e^{Bx} $$

    Aplicando o logaritmo obtemos:

    $$ \ln y = \ln A + B x $$

    Comparando essa equação à equação de uma reta vemos que se fazemos:

    \begin{eqnarray} y' & \to & \ln y \\ A' & \to & \ln A \\ B' & \to & B \\ x' & \to & x \\ y' & = & A' + B' x' \\ \end{eqnarray}

    e obtemos:

    \begin{eqnarray} A & = & e^{A'} \\ B & = & B' \\ \end{eqnarray}

    Modifique o programa de modo que suponha que os dados obedecem uma relação exponencial $y = A e^{Bx}$ e determine os valores de $A$, $B$ e $R$ (0,66, 0,72 e 0,962, respectivamente) e faça o gráfico lin-log.

  5. Considere a equação para uma grandeza $y$ que é proporcional a uma potência de $x$: $$ y = A x^B $$

    Aplicando o logaritmo obtemos:

    $$ \ln y = \ln A + B \ln x $$

    Comparando essa equação à equação de uma reta vemos que se fazemos:

    \begin{eqnarray} y' & \to & \ln y \\ A' & \to & \ln A \\ B' & \to & B \\ x' & \to & \ln x \\ y' & = & A' + B' x' \\ \end{eqnarray}

    e obtemos:

    \begin{eqnarray} A & = & e^{A'} \\ B & = & B' \\ \end{eqnarray}

    Modifique o programa de modo que suponha que os dados obedecem uma relação exponencial $y = A x^B$ e determine os valores de $A$, $B$ e $R$ (1,64, 1,12 e 0.984, respectivamente) e faça o gráfico log-log.

  6. A partir desses resultados, qual das funções (linear, exponencial e potência) melhor descreve os dados?
  7. As tabelas abaixo contêm os dados do que é conhecido como o quarteto de Anscombe.

    Os quatro conjuntos têm valores essencialmente iguais para todos os descritores estatísticos (valor médio de x, valor médio de y, variância em x, variância em y, correlação entre x e y, coeficientes linear e angular da reta ajustada por mínimos quadrados e valor de R).

    Entretanto, constituem distribuições completamente diferentes. O conjunto de dados foi criado por Francis Anscombe em 1973 [ref] para mostrar que a utilização de descritores estatísticos pode levar a erros grosseiros, e que a elaboração e análise de gráficos é essencial para a realização de análises estatísticas adequadas.

    Faça os gráficos dos quatro conjuntos de dados e da melhor reta ajustada aos dados utilizando o método dos mínimos quadrados.