Desvio Padrão ou Erro Padrão?
A distinção fundamental entre estatística descritiva e
inferência estatística pode ser ilustrada pelo diferente
significado dos termos desvio padrão e erro padrão.
Contudo, o uso do erro padrão da média para descrever
a variabilidade das observações numa amostra é dos
erros mais frequentemente observados na literatura
médica (1), muitas vezes por desconhecimento de
princípios básicos da estatística. Neste texto
procuraremos definir estas duas medidas, colocando em
evidência as suas diferenças e as situações em que cada
uma delas pode ser, adequadamente, utilizada.
DESVIO PADRÃO
O desvio padrão é uma medida de dispersão e o seu
valor reflecte a variabilidade das observações em relação
à média.
A dispersão das observações que constituem uma
amostra pode ser caracterizada pelos desvios de cada
observação em relação à média (χi - χ), podendo tomar
valores positivos ou negativos, e o somatório dos desvios
de cada observação em relação à média amostral é zero.
Contudo, os desvios ao quadrado(χi - χ)2, tomam sempre
um valor positivo, e a respectiva média é a variância da
amostra. Se existir uma grande dispersão das observações a variância é grande. Se os valores de cada uma
das observações forem próximos da média a variância é
pequena.
Uma vez que a variância é obtida a partir dos quadrados
dos desvios, esta exprime-se na unidade da variável ao
quadrado (e.g. se as observações tiverem "cm" como
unidade, a variância exprime-se em "cm2"). O desvio
padrão é a raiz quadrada da variância (fórmula 1), pelo
que as suas unidades são as mesmas da média da
variável. O cálculo do desvio padrão é exemplificado no
anexo 1.
(1)
A magnitude do desvio padrão depende da dispersão
das observações relativamente à média, não variando
com o aumento do tamanho das amostras.
Quando a variável segue uma distribuição normal, o
desvio padrão fornece uma informação adicional acerca
da forma como as observações se distribuem em torno
da média, cerca de 68,2% das observações estão contidas
no intervalo definido por média ±1 desvio padrão, 95,4%
no intervalo média ± 2 desvios padrão e 99,7% no
intervalo média ± 3 desvios padrão.
O desvio padrão, para além de sumariar a informação
relativa à dispersão das observações relativamente à
média amostral, é uma estimativa da dispersão na
população de que a amostra é proveniente. Contudo,
esta estimativa é sistematicamente inferior ao valor real
do desvio padrão da população, principalmente nas
amostras pequenas, pelo que é habitualmente calculado
o desvio padrão corrigido (fórmula 2), que não apresenta
o referido erro sistemático (2).
(2)
ERRO PADRÃO
Quando extraímos uma amostra aleatória da
população e calculamos o valor médio de uma
determinada variável, o objectivo último é inferir sobre a
média da população de onde a amostra é originária, ou
seja, a média na amostra avaliada é uma estimativa da
média na população, cuja precisão depende da dispersão
da população e do tamanho da amostra.
Se várias amostras aleatórias forem obtidas de uma
dada população, elas vão diferir relativamente ao valor
médio da população em cada uma e, à semelhança do
que acontece com as observações de cada amostra
individualmente, a distribuição das médias amostrais tem
também um desvio padrão. O erro padrão da média de
uma amostra é uma estimativa do desvio padrão da
distribuição das médias de amostras com o mesmo
tamanho obtidas da mesma população, e dessa forma
uma medida da incerteza associada à estimativa da
média na população (anexo 2).
No caso do erro padrão da média, este é obtido
dividindo o desvio padrão da amostra pela raiz quadrada
do número de observações na amostra.
O erro padrão da estimativa diminui com o aumento
do tamanho da amostra, reflectindo o aumento de precisão
da estimativa com o tamanho da amostra (anexo 2).
QUANDO UTILIZAR O DESVIO PADRÃO E O ERRO
PADRÃO DA MÉDIA?
Se o objectivo é descrever a variabilidade observada
numa amostra deve-se utilizar o desvio padrão.
O desvio padrão, como medida de dispersão, não
deve ser usado quando a população não segue uma
distribuição normal ou aproximadamente normal. Nestes
casos, o desvio padrão pode não ser uma boa estimativa
de dispersão, pelo facto da média, que é utilizada no seu
cálculo, ser pouco resistente a observações extremas.
Também quando a distribuição da população é normal
podem ocorrer observações extremas se o tamanho das
amostras for pequeno.
Nestas situações, poderá ser mais adequada a
descrição da dispersão com outras medidas (e.g. distância
inter-quartis) ou indicando percentis próximos dos dois
extremos da distribuição (e.g. percentis 25 e 75 ou os
percentis 10 e 90).
Se o objectivo for indicar a imprecisão associada à
estimativa de um determinado parâmetro (e.g. média),
pode utilizar-se o erro padrão. Contudo, de uma forma
geral, os intervalos de confiança podem ser interpretados
de forma mais directa que os erros padrão, sendo preferível
a apresentação dos primeiros. O erro padrão é um passo
intermédio no cálculo de intervalos de confiança.
O facto do erro padrão ser quantitativamente menor
do que o desvio padrão pode contribuir para que alguns
autores optem por apresentar o erro padrão quando
pretendem quantificar a dispersão das observações da
amostra, transmitindo uma falsa ideia de precisão aos
leitores menos atentos e com poucos conhecimentos de
estatística.
APRESENTAÇÃO DOS RESULTADOS
O desvio padrão e o erro padrão têm as mesmas
unidades das medidas das quais resultam.
É frequente (3) a utilização do símbolo ± entre o valor
numérico da média e o do respectivo desvio padrão ou
erro padrão (e.g. 0,350 ± 0,062 g/cm2) sem que seja
indicada qual a quantidade a que o número colocado
após o sinal ± se refere. É necessário indicar de forma
clara no texto se é apresentada a média e a respectiva
medida da incerteza (e.g. os resultados apresentados
são média (erro padrão)) ou a média e uma medida da
dispersão (e.g. os resultados apresentados são média
(desvio padrão)) (4).