terça-feira, 30 de março de 2010

O que realmente significa “Estatisticamente significante”?


Todo estudante da área de ciências aprende a expressão “Estatisticamente significante”, quantos realmente entendem apropriadamente o que estão dizendo? Alguns conceitos simples de significância não são bem sedimentados. Assim muitos pensam que “estatisticamente significante” significa “biologicamente relevante”. De modo inverso, a ausência de significância estatística não significa que há uma evidência de inexistência do efeito ou da associação  (Ausência de evidência não é evidência de ausência). O engano acontece mesmo com aqueles que sabem definir estas diferenças.
A compreensão da significância estatística é um ponto de extrema importância na formação científica, pois a publicação de um trabalho pressupõe que os dados mostrados não aconteceram por mero acaso na amostragem ou devido a fatores não controlados no estudo.  Para uma análise crítica do tema, recomendo o artigoOdds Are, It's Wrong. Science fails to face the shortcomings of statistics” de Tom Siegfried no ScienceNews (March 27th, 2010; Vol.177 #7; p. 26).  O artigo é um pouco longo, mas merece o tempo dedicado à sua leitura.
Veja abaixo alguns tópicos do artigo para estimular a leitura:
“… there’s no logical basis for using a P value from a single study to draw any conclusion. If the chance of a fluke is less than 5 percent, two possible conclusions remain: There is a real effect, or the result is an improbable fluke. Fisher’s method offers no way to know which is which. On the other hand, if a study finds no statistically significant effect, that doesn’t prove anything, either. Perhaps the effect doesn’t exist, or maybe the statistical test wasn’t powerful enough to detect a small but real effect.”
“A recent popular book on issues involving science, for example, states a commonly held misperception about the meaning of statistical significance at the .05 level: “This means that it is 95 percent certain that the observed difference between groups, or sets of samples, is real and could not have arisen by chance.” That interpretation commits an egregious logical error (technical term: “transposed conditional”): confusing the odds of getting a result (if a hypothesis is true) with the odds favoring the hypothesis if you observe that result. A well-fed dog may seldom bark, but observing the rare bark does not imply that the dog is hungry. A dog may bark 5 percent of the time even if it is well-fed all of the time.”
“Because of the way statistical formulas work, a study with a very large sample can detect “statistical significance” for a small effect that is meaningless in practical terms. A new drug may be statistically better than an old drug, but for every thousand people you treat you might get just one or two additional cures — not clinically significant.”
“Ziliak studied journals from various fields — psychology, medicine and economics among others — and reported frequent disregard for the distinction. “I found that eight or nine of every 10 articles published in the leading journals make the fatal substitution” of equating statistical significance to importance, he said in an interview.”
Espero ter convencido que você não deve dormir hoje sem ter lido o artigo completo. Ou pelo menos não deixe de ler o tópico sobre erro em ensaios clínicos:
“Determining the best treatment for a particular patient is fundamentally different from determining which treatment is best on average,” physicians David Kent and Rodney Hayward wrote in American Scientist in 2007. “Reporting a single number gives the misleading impression that the treatment-effect is a property of the drug rather than of the interaction between the drug and the complex risk-benefit profile of a particular group of patients.”
Tem outros tópicos interessantes, sobre meta-análise e estatística bayesiana, por exemplo.

Um comentário:

  1. Dr. Barral,

    excelente postagem sobre o valor de P. Realmente este está muito além de resolver nossos conflitos com a verdade científica. Mesmo medindo a probabilidade do acaso, o P muitas vezes subestima o acaso, como no caso das múltiplas comparação, das interrupções precoces de estudos, ou de estudos pequenos com resultados estatisticamente significantes. Para um estudo pequeno dar significância estatística, muitas vezes é necessário uma magnitude de diferença não plausível. A mente cartesiana se contenta com o valor de P, mas a mente não determinística, consciente da complexidade dos sistemas biológicos deve reconhecer que o valor de P é uma medida reducionista da verdade. Pelo menos este serve como um certo controle de qualidade dos estudos.

    ResponderExcluir