Notebook 30
Ajuste de retas (mínimos quadrados, regressão linear)
A tabela e o gráfico a seguir mostram valores medidos para a variável $y$ (posição, por exemplo) em função da variável $x$ (tempo, por exemplo). O gráfico também mostra a "melhor reta" ajustada aos dados de acordo com o método exposto a seguir.
Uma reta é definida pelo seus coeficientes linear $A$ e angular $B$ segundo a equação:
$$ y = A + B x $$O método dos mínimos quadrados busca encontrar os valores de $A$ e $B$ que minimizam $Q$:
$$ Q = \sum_i ( y_i - y(x_i))^2 $$onde $(x_i,y_i)$ são as coordenadas do ponto conhecido e $y(x_i) = A + B x_i$ ao valor da função para $x_i$, de modo que:
$$ Q = \sum_i ( y_i - A - B x_i)^2 $$O valor de $Q$ será mínimo quando as suas derivadas parciais em relação a $A$ e a $B$ forem simultaneamente iguais a zero:
\begin{eqnarray} \frac{\partial Q}{\partial A} & = & \sum_i y_i - A - B x_i = 0 \\ \frac{\partial Q}{\partial B} & = & \sum_i (y_i - A - B x_i) x_i = 0 \\ \end{eqnarray}ou, equivalentemente:
\begin{eqnarray} \sum_i y_i & = & A N + B \sum_i x_i \\ \sum_i x_i y_i & = & A \sum_i x_i + B \sum_i x_i^2 \\ \end{eqnarray}Os somatórios dependem apenas das coordenadas dos pontos e resultam em quantias (números) bem definidas:
$$ s_x = \sum_i x_i, \,\,\,\,\,\, s_y = \sum_i y_i, \,\,\,\,\,\, s_{xy} = \sum_i x_i y_i, \,\,\,\,\,\, s_{x^2} = \sum_i x_i^2 $$de modo que:
\begin{eqnarray} s_y & = & A N + B s_x \\ s_{xy} & = & A s_x + B s_{x^2} \\ \end{eqnarray}e, finalmente:
\begin{eqnarray} A & = & \frac {s_y s_{x^2} - s_x s_{xy}} {N s_{x^2} - (s_x)^2} \\ B & = & \frac {N s_{xy} - s_x s_y} {N s_{x^2} - (s_x)^2} \\ \end{eqnarray}Exercícios
então:
$$ x = -\frac{A}{B} + \frac{1}{B} y = A' + B' y $$de modo que em uma situação ideal:
$$ B' = \frac{1}{B} \to BB' = 1 $$Isso significa que, em princípio, quanto mais próxima da unidade for a grandeza $R = \sqrt{BB'}$, melhor a reta encontrada descreve os dados. $R$ também pode ser escrito em termos dos somatórios:
$$ R = \frac {N s_{xy} - s_x s_y} {\sqrt{(N s_{x^2} - (s_x)^2) (N s_{y^2} - (s_y)^2)}} $$Faça um programa que encontre o valor de $R$ para o conjunto de dados fornecido (0,971).
Aplicando o logaritmo obtemos:
$$ \ln y = \ln A + B x $$Comparando essa equação à equação de uma reta vemos que se fazemos:
\begin{eqnarray} y' & \to & \ln y \\ A' & \to & \ln A \\ B' & \to & B \\ x' & \to & x \\ y' & = & A' + B' x' \\ \end{eqnarray}e obtemos:
\begin{eqnarray} A & = & e^{A'} \\ B & = & B' \\ \end{eqnarray}Modifique o programa de modo que suponha que os dados obedecem uma relação exponencial $y = A e^{Bx}$ e determine os valores de $A$, $B$ e $R$ (0,66, 0,72 e 0,962, respectivamente) e faça o gráfico lin-log.
Aplicando o logaritmo obtemos:
$$ \ln y = \ln A + B \ln x $$Comparando essa equação à equação de uma reta vemos que se fazemos:
\begin{eqnarray} y' & \to & \ln y \\ A' & \to & \ln A \\ B' & \to & B \\ x' & \to & \ln x \\ y' & = & A' + B' x' \\ \end{eqnarray}e obtemos:
\begin{eqnarray} A & = & e^{A'} \\ B & = & B' \\ \end{eqnarray}Modifique o programa de modo que suponha que os dados obedecem uma relação exponencial $y = A x^B$ e determine os valores de $A$, $B$ e $R$ (1,64, 1,12 e 0.984, respectivamente) e faça o gráfico log-log.
Os quatro conjuntos têm valores essencialmente iguais para todos os descritores estatísticos (valor médio de x, valor médio de y, variância em x, variância em y, correlação entre x e y, coeficientes linear e angular da reta ajustada por mínimos quadrados e valor de R).
Entretanto, constituem distribuições completamente diferentes. O conjunto de dados foi criado por Francis Anscombe em 1973 [ref] para mostrar que a utilização de descritores estatísticos pode levar a erros grosseiros, e que a elaboração e análise de gráficos é essencial para a realização de análises estatísticas adequadas.
Faça os gráficos dos quatro conjuntos de dados e da melhor reta ajustada aos dados utilizando o método dos mínimos quadrados.