SCIENTIA TOTUM CIRCUMIT ORBEM: Erro de classificação, associação epidemiológica ... e Bayes!

Post de Mauricio Cardeal

Comentário ao artigo: Tarafder, M., Carabin, H., McGarvey, S., Joseph, L., Balolong, E., & Olveda, R. (2011). Assessing the Impact of Misclassification Error on an Epidemiological Association between Two Helminthic Infections PLoS Neglected Tropical Diseases, 5 (3) DOI: 10.1371/journal.pntd.0000995

Mais uma vez agradeço ao time do Blog Sciencia Totum Circumit Orbem pelo convite ao comentário.

O estudo objetivou demonstrar o impacto do ajuste para o erro na estimativa do efeito da infecção por geo-helmintos na incidência acumulada em 12 meses da infecção por S. japonicum devido ao erro de classificação. O erro de classificação refere-se ao método Kato-Katz.

Ou seja, de que modo o erro de classificação do método pode mudar uma medida de associação !

Os argumentos dos autores:

– A excreção de ovos de helmintos nas fezes humanas varia no tempo;
– Número desigual de amostras de fezes entre os indivíduos afeta a sensibilidade de testes diagnósticos de S. japonicum e geo-helmintos.
– A coleta de amostras de fezes em dias consecutivos aumenta a sensibilidade de testes coprológicos.

Comentário: sabemos que a prevalência afeta o valor preditivo positivo(1). Quanto maior a prevalência da doença, maior é a chance daquela doença em particular ser diagnosticada, uma vez que o teste diagnóstico seja positivo. Exemplo simples: quanto mais prevalente for a tuberculose em uma área, qualquer tosse pode ser sinal de tuberculose !

Mas o mesmo não ocorre com a sensibilidade, pois ela é uma característica do teste diagnóstico e sendo rara ou não a doença em particular, o teste, quanto mais sensível for, mais diagnosticará corretamente. Ou seja, a sensibilidade de um teste diagnóstico independe da prevalência. Por exemplo, se um teste for 100 % sensível, ele detectará corretamente um caso, se apenas um caso houver. Daí que é correto dizer que se temos mais amostras de fezes, maior é a chance de se fazer o diagnóstico, mas às custas do aumento do valor preditivo positivo e não da sensibilidade. A sensibilidade é a mesma com uma, duas ou três amostras. Ou o Kato-Katz detecta ou ele não detecta a cada amostra de fezes que a ele submeto. Se na primeira amostra se detecta o S.japonicum, pronto, o diagnóstico foi feito. Se, só se detecta quando obtemos a segunda amostra, pronto. E assim por diante.

Poderíamos então exagerar e obter 365 amostras de fezes, uma a cada dia para aumentar a capacidade de detecção do teste. Não, de forma alguma ! Não é a capacidade de detecção do teste que está aumentando e sim a chance do S.japonicum se apresentar ao longo do ano !!! Ao invés de uma, duas ou três, são 365 vezes !!! Mas o Kato-Katz continua o mesmo ! Como dizia mais ou menos a propaganda: A minha voz continua a mesma, mas os meus cabelos, quanta diferença !

Comentário: me parece que os autores fizeram uma confusão aqui entre sensibilidade e valor preditivo e isso compromete seriamente o artigo.

Fonte de dados
Os autores utilizaram dados de um outro estudo prospectivo efetuado nas Filipinas, ocorrido entre 2004 e 2005, que objetivava avaliar o efeito dos sistemas de gerenciamento de água e animais sobre a transmissão do S. japonicum.

Mensuração
A técnica de Kato-Katz foi empregada para detectar ovos dos helmintos. O número de ovos de S. japonicum por grama de fezes foram contados e os indivíduos foram classificados como infectados ou não infectados.

Tratamento
Os indivíduos foram tratados para as helmintíases no início do estudo e ao final de 12 meses de acompanhamento. Assumiu-se 100 % de eficácia do Praziquantel.

Comentário: um tratamento 100 % eficaz pode não ser 100 % efetivo ! Para os propósitos do estudo se deveria assumir 100 % de efetividade, mas isso é apenas um pequeno ajuste conceitual.

Unidade amostral: indivíduos e famílias. De 134 vilas endêmicas para S. japonicum em 2002, 50 atenderam os critérios de inclusão.
Os critérios de inclusão das vilas: segurança e acesso da equipe de pesquisa, localização e número de famílias em cada vila.
Foram sorteadas no máximo 35 famílias de cada vila e foram sorteados no máximo 6 indivíduos por família: amostragem por estagiamento em 2 níveis – uma amostragem probabilística.

Análise estatística
Optou-se pelo modelo de regressão logística hierárquica de classe latente a partir da concepção Bayesiana de probabilidade.

Comentário: nome complicado, não ?

Modelos hierárquicos de regressão são empregados com o objetivo de se considerar simultaneamente variabilidades em níveis hierárquicos diferentes, por exemplo: admitamos duas escolas consideradas muito diferentes quanto às estrutura física e pedagógica, uma muito boa, a outra muito ruim. Consideremos ainda duas crianças com idades semelhantes, uma muito inteligente, a outra pouco inteligente (não vamos complicar, é apenas um exemplo simples e didático). As crianças, portanto, variam, assim como variam as escolas. Agora, se colocarmos a criança muito inteligente na escola ruim e vice-versa, notaremos após algum tempo que as crianças modificarão seus respectivos desempenhos, por causa do efeito da escola. São então dois níveis hierárquicos distintos sendo avaliados conjuntamente. O nível 1 corresponde a variação entre crianças e o nível 2, corresponde à variação entre escolas.

A análise hierárquica (modelagem multinível)(2) no estudo seria justificada pelo plano amostral (estagiamento) e pela concepção adotada de unidade amostral, mas a diferença mesmo está no uso do conceito subjetivista de probabilidade.

Classes latentes são perfis construídos a partir de variáveis que não podem ser observadas diretamente, mas através da manifestação das variá¬veis observáveis. Quando digo que há um perfil de risco para eventos coronarianos, as variáveis observáveis, por exemplo, sedentarismo, hábito de fumar, estresse psicológico, etc, avaliadas conjuntamente em um modelo que me revelam indiretamente as classes latentes, tais como: ser sedentário, ser fumante, estar agudamente estressado ou todas as combinações possíveis. Esses perfis são as classes latentes.

No artigo os autores assumiram independência entre as medidas do Kato-Katz. Por não disporem de um padrão-ouro para a detecção das parasitoses, consideraram o “verdadeiro estado de infecção” dos sujeitos da pesquisa como dado latente. Ou seja, o “verdadeiro estado de infecção” de cada sujeito da pesquisa foi estimado uma vez que a sensibilidade e a especificidade eram conhecidas de estudo prévio (dos mesmos autores), graças ao algoritmo aleatorizador de Gibbs(1) que é um gerador pseudo aleatório de uma sequência de amostras da distribuição conjunta de probabilidades de duas ou mais variáveis aleatórias e que é capaz de produzir uma amostra da distribuição de interesse que é desconhecida. UFA !

Parece complicado, não é ? E de fato é !!!

No caso, seria: (n) número de amostras de fezes, (nd) número de detec¬ções corretas do S. japonicum e (pd) probabilidade de detecção dos ovos de S. japonicum (sensibilidade – distribuição a priori). Tanto n como pd variam para cada indivíduo pesquisado e cada um tem sua distribuição de probabilidade (em sendo variáveis aleatórias). A distribuição marginal resultante de nd gerada através da simulação de uma amostra aleatória bem grande (a partir dos dados) com uma “ajudinha” do Teorema do Limite Central pode-se estimar o número de detecções corretas do S. japonicum com aproximação. Que saída, hein ?

Para os seguidores de Bayes (subjetivistas), essa é uma solução adequada, mas os frequentistas não concordam. Quero lembrar que a maioria dos cursos de graduação e pós-graduação do Brasil ensinam estatística inferencial baseada na escola frequentista de probabilidade. Ou seja, aquilo que você provavelmente aprendeu sobre testes de hipótese, intervalos de confiança, usa os conceitos e formulações frequentistas. Os subjetivistas ainda não são tão populares. Afirmo que são escolas até então incompatíveis e que produzem probabilidades diferentes para um mesmo problema de investigação porque os conceitos e os métodos de análise são diferentes. Qual está certa ? Cada uma possui argumentos para dizer-se a mais correta. Portanto, ao desejar fazer uma análise estatística inferencial, deve-se primeiramente escolher a escola e só em seguida definir o plano de análise.

Uma observação: nem todos os pacotes estatísticos fazem estatística Bayesiana. O que você possui, faz ? O pacote estatístico livre R(3), faz !

Um alerta: corremos o risco de apresentar uma solução para o problema errado (erro tipo 3) ou uma solução ruim para o problema certo. Assim, cuidado com o uso da estatística sem fundamentação teórica adequada; cuidado com a “mordida do rato” no seu pacote estatístico preferido: clique, clique, clique.

Voltando ao artigo: foram considerados sob risco aqueles indivíduos que forneceram pelo menos uma amostra de fezes, aceitaram participar do estudo no “baseline” e receberam tratamento.

Dos resultados apresentados, vou destacar apenas as associações entre ancilostomíase e S. japonicum, para ilustrar os comentários que farei em seguida.

Para a infecção pelo ancilóstoma sem considerar qualquer erro de classificação (erro de classificação tanto para ancilóstoma como para S. japonicum), a odds-ratio (OR) da associação com S. japonicum foi igual a 1,28.

Para a infecção pelo ancilóstoma considerando apenas o erro de classificação para ancilóstoma, a OR da associação com S. japonicum foi igual a 1,48.

Para a infecção pelo ancilóstoma considerando apenas o erro de classificação para S. japonicum, a OR da associação com S. japonicum foi igual a 1,55.

Para a infecção pelo ancilóstoma considerando ambos os erros de classificação, a OR da associação com S. japonicum foi igual a 2,13.

Os autores concluíram que a ancilostomíase esteve associada com o aumento da incidência acumulativa de S. japonicum em 12 meses e que estudos que não ajustam para o erro de classificação não teriam a capacidade de detectá-la adequadamente.

Comentários:

Será que houve erro de classificação ? Segundo os autores, sim. Entendo que sim, simplesmente porque o Kato-Katz não é 100 % sensível e 100 % específico, mas de quanto seria esse erro ? Para calcular adequadamente o grau do erro precisaria examinar as amostras de fezes através de um método padrão-ouro. Acontece que no presente estudo não há padrão-ouro de fato e sim uma simulação probabilística através do algoritmo aleatorizador de Gibbs para afirmar sobre o “verdadeiro estado de infecção” dos sujeitos da pesquisa. Ora, isso é tipicamente do escopo do raciocínio probabilístico, o qual não produz certeza. Se é então provável, não é certo. Eu não teria essa coragem de assumir como padrão-ouro o resultado dessas “manobras” e por isso não considero possível a obtenção do grau do erro de classificação. No máximo posso “aceitar” como um “provável” erro de classificação. Esse “aceitar”, apesar da fundamentação teórica oferecida pela Teoria Subjetivista de Probabilidade, continua sendo probabilidade e portanto, é uma questão de aposta, sorte, azar e uma boa dose de crença. Então, será mesmo que as odds-ratios calculadas estão medindo mesmo o erro de classificação ? Prefiro ser mais prudente. Afinal, a solução dos autores está melhorando a mensuração da associação ou a está a enviesando ainda mais, através de um viés de subjetividade ? Entretanto, se você está convencido dos argumentos da Escola Bayesiana, não há qualquer problema, a não ser tomar os devidos cuidados (que são muitos) na utilização das suas técnicas analíticas.

Se os argumentos anteriores operam fortemente em torno da noção de crença e credibilidade, por outro lado, os autores cometeram um erro ao afirmar e assumir que a coleta de amostras de fezes em dias consecutivos aumenta a sensibilidade de testes coprológicos e isso elimina completamente a possibilidade de uma medida correta do erro de classificação.

Esse artigo é um bom exemplo da criatividade humana, essencial para a vida e para a ciência. Ele é rico em método e coerente com uma proposta inferencial da Escola Bayesiana de Probabilidade. Bayesianos, mãos à obra !

Referências:

1. Massad E, Menezes RX de, SILVEIRA PS, Ortega NRS. Métodos quantitativos em medicina. Manole; 2004.
2. Goldstein H. Multilevel Statistical Models. 4th ed. Wiley; 2010.
3. R Development Core Team. R: A language and environment for statistical computing [Internet]. Vienna, Austria: R Foundation for Statistical Computing; 2011. Available from: http://www.R-project.org

sábado, 21 de maio de 2011

Erro de classificação, associação epidemiológica ... e Bayes!

Nenhum comentário:

Postar um comentário