Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Data Analysis Examples Logistics Regression Informação da versão: O código para esta página foi testado em Stata 12. A regressão logística, também chamada de modelo logit, é usada para modelar variáveis de resultado dicotômicas. No modelo logit, as probabilidades de log do resultado são modeladas como uma combinação linear das variáveis preditoras. Observe: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, a verificação de premissas, o diagnóstico de modelo e as possíveis análises de acompanhamento. Exemplos de regressão logística Exemplo 1: Suponha que estamos interessados nos fatores que influenciam se um candidato político ganha uma eleição. A variável resultado (resposta) é binária (01) ganha ou perde. As variáveis preditoras de interesse são a quantidade de dinheiro gasto na campanha, a quantidade de tempo gasto fazendo campanha negativamente e se o candidato é ou não um titular. Exemplo 2: Um pesquisador está interessado em como as variáveis, como GRE (pontuação do Exame Grau de Pós-Graduação), GPA (nota média) e prestígio da instituição de graduação, fazem entrada na pós-graduação. A variável de resposta, admitida não admite, é uma variável binária. Descrição dos dados Para a análise de dados abaixo, vamos ampliar o Exemplo 2 sobre entrar na pós-graduação. Nós geramos dados hipotéticos, que podem ser obtidos no nosso site. Este conjunto de dados tem uma variável de resposta binária (resultado, dependente) chamada admitir. Existem três variáveis preditoras: gre. Gpa e rank. Trataremos as variáveis gre e gpa como contínuas. O ranking variável assume os valores de 1 a 4. Instituições com uma classificação de 1 têm o maior prestígio, enquanto aqueles com um ranking de 4 têm o menor. Os métodos de análise que você pode considerar abaixo são uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão logística, o foco desta página. Regressão Probit. A análise Probit produzirá resultados de regressão logística semelhante. A escolha do probit versus logit depende em grande parte das preferências individuais. Regressão OLS. Quando usado com uma variável de resposta binária, este modelo é conhecido como um modelo de probabilidade linear e pode ser usado como uma forma de descrever probabilidades condicionais. No entanto, os erros (isto é, os resíduos) do modelo de probabilidade linear violam os pressupostos de homosqueticidade e normalidade dos erros da regressão OLS, resultando em erros padrão inválidos e testes de hipóteses. Para uma discussão mais completa sobre estes e outros problemas com o modelo de probabilidade linear, veja Long (1997, pág. 38-40). Análise de função discriminante de dois grupos. Um método multivariado para variáveis de resultado dicotômicas. Hotellings T 2. O resultado 01 é transformado na variável de agrupamento, e os preditores anteriores são transformados em variáveis de resultado. Isso produzirá um teste geral de significância, mas não dará coeficientes individuais para cada variável, e não está claro até que ponto cada coeficiente de resposta é ajustado para o impacto dos outros fatores. Cronograma logístico Abaixo, usamos o comando logit para estimar um Modelo de regressão logística. O eu. Antes de classificação indica que a classificação é uma variável fator (ou seja, variável categórica) e que deve ser incluída no modelo como uma série de variáveis indicadores. Observe que essa sintaxe foi introduzida no Stata 11. Na saída acima, primeiro vemos o registro de iteração, indicando a rapidez com que o modelo convergeu. A probabilidade de log (-229.25875) pode ser usada em comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 400 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis tivesse valores faltantes). O índice de verossimilhança do qui-quadrado de 41,46 com um valor de p de 0,0001 nos diz que nosso modelo como um todo se encaixa significativamente melhor do que um modelo vazio (ou seja, um modelo sem preditores). Na tabela, vemos os coeficientes, seus erros padrão, a estatística z, os p-valores associados e o intervalo de confiança 95 dos coeficientes. Tanto Gre e Gpa são estatisticamente significativos, assim como as três variáveis de indicadores para classificação. Os coeficientes de regressão logística dão a alteração nas probabilidades de log do resultado para um aumento de uma unidade na variável preditor. Por cada mudança de unidade em gre. As probabilidades de registro de admissão (versus não admissão) aumentam em 0,002. Para um aumento de uma unidade em gpa. As probabilidades de registro de serem admitidas na escola de pós-graduação aumentam em 0.804. As variáveis de indicadores para classificação possuem uma interpretação ligeiramente diferente. Por exemplo, tendo frequentado uma instituição de graduação com classificação de 2, versus uma instituição com uma classificação de 1, diminui as probabilidades de admissão em 0.675. Podemos testar um efeito geral de classificação usando o comando de teste. Abaixo, vemos que o efeito geral da classificação é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de classificação. Abaixo, nós testamos que o coeficiente para o ranking 2 é igual ao coeficiente para o ranking 3. (Note que, se desejássemos estimar essa diferença, poderíamos fazê-lo usando o comando lincom.) Você também pode exponencializar os coeficientes e interpretá-los como probabilidades - índices. A Stata fará essa computação para você se você usar a opção ou, ilustrada abaixo. Você também pode usar o comando logístico. Agora, podemos dizer que por um aumento de uma unidade na gpa. As probabilidades de serem admitidos na escola de pós-graduação (versus não admitidas) aumentam em um fator de 2,23. Para obter mais informações sobre os índices de odds de interpretação, consulte nossa página de perguntas frequentes. Como interpreto os odds ratios na regressão logística. Você também pode usar probabilidades previstas para ajudá-lo a entender o modelo. Você pode calcular as probabilidades previstas usando o comando de margens, que foi introduzido em Stata 11. Abaixo usamos o comando de margens para calcular a probabilidade prevista de admissão em cada nível de classificação. Mantendo todas as outras variáveis no modelo por seus meios. Para obter mais informações sobre o uso do comando de margens para calcular as probabilidades previstas, consulte nossa página Usando margens para probabilidades previstas. Na saída acima, vemos que a probabilidade prevista de ser aceito em um programa de pós-graduação é de 0,51 para as instituições de graduação de maior prestígio (rank1) e 0,18 para as instituições mais bem classificadas (rank4), segurando gre e gpa pelos seus meios. Abaixo, nós geramos as probabilidades previstas de valores de gre de 200 a 800 em incrementos de 100. Como não especificamos nem atmeans ou usado em (.) Para especificar valores com as demais variáveis de preditores são mantidos, os valores na tabela são Probabilidades preditivas médias calculadas usando os valores da amostra das demais variáveis preditoras. Por exemplo, para calcular a probabilidade média prevista quando gre 200, a probabilidade prevista foi calculada para cada caso, usando os valores dos casos de classificação e gpa. Com gre ajustado para 200. Na tabela acima, podemos ver que a probabilidade preditiva média de aceitação é de apenas 0,167 se o escore GRE for 200 e aumenta para 0,414 se o escore GRE for 800 (em média entre os valores de amostra de gpa e classificação ). Também pode ser útil usar gráficos de probabilidades previstas para entender e apresentar o modelo. Podemos também querer ver medidas de como o modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. O comando de comando escrito pelo usuário produz uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre como usar findit). Coisas a considerar Células vazias ou células pequenas: você deve verificar se há células vazias ou pequenas fazendo uma tabela cruzada entre preditores categóricos e a variável de resultados. Se uma célula tem muito poucos casos (uma célula pequena), o modelo pode tornar-se instável ou pode não ser executado. Separação ou quase separação (também chamada de previsão perfeita), condição em que o resultado não varia em alguns níveis das variáveis independentes. Veja a nossa página FAQ: o que é completo ou quase completo na regressão do logisticprobit e como lidar com eles para obter informações sobre modelos com previsão perfeita. Tamanho da amostra: ambos os modelos logit e probit requerem mais casos do que a regressão OLS porque eles usam técnicas de estimação de máxima verossimilhança. Às vezes, é possível estimar modelos para resultados binários em conjuntos de dados com apenas um pequeno número de casos usando regressão logística exata (usando o comando exlogístico). Para obter mais informações, consulte nosso exemplo de análise de dados para regressão logística exata. Também é importante ter em mente que quando o resultado é raro, mesmo que o conjunto de dados geral seja grande, pode ser difícil estimar um modelo logit. Pseudo-R-quadrado: existem várias medidas diferentes de psuedo-R-quadrado. Todos tentam fornecer informações semelhantes às fornecidas pelo R-squared na regressão OLS no entanto, nenhuma delas pode ser interpretada exatamente como o R-quadrado na regressão OLS é interpretado. Para uma discussão de vários pseudo-R-squareds, veja Long e Freese (2006) ou nossa página de FAQs O que são pseudo R-squareds Diagnostics: O diagnóstico para regressão logística é diferente daqueles para regressão OLS. Para uma discussão sobre o diagnóstico do modelo para regressão logística, consulte Hosmer e Lemeshow (2000, Capítulo 5). Observe que os diagnósticos realizados para a regressão logística são semelhantes aos realizados para a regressão probit. Em Stata, os valores de 0 são tratados como um nível da variável de resultado, e todos os outros valores não faltantes são tratados como o segundo nível do resultado. Dados agrupados: às vezes as observações são agrupadas em grupos (por exemplo, pessoas dentro das famílias, estudantes dentro das salas de aula). Nesses casos, você pode querer ver nossa página na não-independência dentro dos clusters. Referências Hosmer, D. Lemeshow, S. (2000). Regressão Logística Aplicada (Segunda Edição). Nova York: John Wiley Sons, Inc. Long, J. Scott, Freese, Jeremy (2006). Modelos de regressão para variáveis categóricas dependentes usando Stata (segunda edição). College Station, TX: Stata Press. Long, J. Scott (1997). Modelos de regressão para variáveis categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Data Analysis Examples Poisson Regression Informação da versão: Código para Esta página foi testada em Stata 12. A regressão de Poisson é usada para modelar variáveis de contagem. Observe: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, a verificação de pressupostos, o diagnóstico de modelos ou as possíveis análises de acompanhamento. Exemplos de regressão de Poisson Exemplo 1. O número de pessoas mortas por mula ou cavalos no exército prussiano por ano. Ladislaus Bortkiewicz coletou dados de 20 volumes de Preussischen Statistik. Esses dados foram coletados em 10 corpos do exército prussiano no final dos anos 1800 ao longo de 20 anos. Exemplo 2. O número de pessoas na linha na frente de você no supermercado. Os preditores podem incluir o número de itens atualmente oferecidos a um preço especial com desconto e se um evento especial (por exemplo, um feriado, um grande evento esportivo) está a três ou menos dias de distância. Exemplo 3. O número de prêmios ganhos por estudantes em uma escola secundária. Os preditores do número de prêmios ganhos incluem o tipo de programa no qual o aluno foi matriculado (por exemplo, vocacional, geral ou acadêmico) e a pontuação em seu exame final em matemática. Descrição dos dados Para fins de ilustração, simulamos um conjunto de dados para o Exemplo 3 acima. Neste exemplo, numeeses é a variável de resultado e indica o número de prêmios ganhos por estudantes em uma escola secundária em um ano, a matemática é uma variável de preditores contínua e representa as pontuações dos alunos em seu exame final de matemática e prog é uma variável de preditores categórica com Três níveis indicando o tipo de programa no qual os alunos foram matriculados. Comecemos por carregar os dados e analisar algumas estatísticas descritivas. Cada variável possui 200 observações válidas e suas distribuições parecem bastante razoáveis. Nesse particular, a média incondicional e a variância de nossa variável de resultados não são extremamente diferentes. Vamos continuar com nossa descrição das variáveis neste conjunto de dados. A tabela abaixo mostra o número médio de prêmios por tipo de programa e parece sugerir que o tipo de programa é um bom candidato para prever o número de prêmios, nossa variável de resultados, porque o valor médio do resultado parece variar de acordo com o prog. Os métodos de análise que você pode considerar abaixo são uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão de Poisson - A regressão de Poisson é freqüentemente usada para modelar dados de contagem. A regressão de Poisson possui várias extensões úteis para os modelos de contagem. Regressão binomial negativa - A regressão binomial negativa pode ser usada para dados de contagem em excesso, ou seja, quando a variância condicional excede a média condicional. Pode ser considerado como uma generalização da regressão de Poisson, pois possui a mesma estrutura média que a regressão de Poisson e possui um parâmetro extra para modelar a sobre-dispersão. Se a distribuição condicional da variável de resultado estiver sobredispersa, os intervalos de confiança para a regressão binomial negativa provavelmente serão mais estreitos em comparação com aqueles de uma regressão de Poisson. Modelo de regressão zero-inflação - Modelos com inflação zero tentam explicar o excesso de zero. Em outras palavras, pensa-se que existem dois tipos de zeros nos dados, quottrue zerosquot e quotexcess zerosquot. Os modelos Zero-inflated estimam duas equações simultaneamente, uma para o modelo de contagem e outra para o excesso de zero. Regressão OLS - As variáveis de resultado de contagem às vezes são transformadas em log e analisadas usando a regressão OLS. Muitas questões surgem com essa abordagem, incluindo perda de dados devido a valores indefinidos gerados pelo registro de zero (que é indefinido) e estimativas tendenciosas. Regressão de Poisson Abaixo, usamos o comando poisson para estimar um modelo de regressão de Poisson. O eu. Antes de prog indica que é uma variável de fatores (ou seja, variável categórica) e que deve ser incluída no modelo como uma série de variáveis de indicadores. Usamos a opção vce (robusta) para obter erros padrão robustos para as estimativas dos parâmetros, conforme recomendado por Cameron e Trivedi (2009) para controlar uma violação leve dos pressupostos subjacentes. A saída começa com o registro de iteração, que dá os valores do log de pseudolikelihoods começando com o modelo nulo. O último valor no registro de iteração é o valor final do log de pseudolikelihood para o modelo completo e é exibido novamente. Como pedimos erros padrão robustos, a probabilidade máxima é, na verdade, uma pseudolikelihood. As estimativas dos parâmetros são as estimativas de máxima verossimilhança e a estimativa da matriz variância-covariância das estimativas dos parâmetros leva à probabilidade de pseudol. Os valores de log pseudolikelihood podem ser usados para comparar modelos. A informação do cabeçalho é apresentada a seguir. No lado direito, o número de observações utilizadas na análise (200) é dado, juntamente com a estatística do qui-quadrado de Wald com três graus de liberdade para o modelo completo, seguido do valor p para o qui-quadrado . Este é um teste que todos os coeficientes estimados são iguais a zero - um teste do modelo como um todo. A partir do valor p, podemos ver que o modelo é estatisticamente significativo. O cabeçalho também inclui um pseudo-R 2. que é 0.21 neste exemplo. Abaixo do cabeçalho você encontrará os coeficientes de regressão de Poisson para cada uma das variáveis juntamente com erros padrão robustos, escores z, valores de p e 95 intervalos de confiança para os coeficientes. O coeficiente de matemática é 0,07. Isso significa que o aumento esperado na contagem de log para um aumento de uma unidade em matemática é de 0,07. A variável de indicador 2.prog é a diferença esperada na contagem de log entre o grupo 2 (prog 2) e o grupo de referência (prog 1). Comparado com o nível 1 do prog. A contagem de log esperada para o nível 2 do prog aumenta em cerca de 1.1. A variável de indicador 3.prog é a diferença esperada na contagem de log entre o grupo 3 (prog 3) e o grupo de referência (prog 1). Comparado com o nível 1 do prog. A contagem de log esperada para o nível 3 do prog aumenta em cerca de .37. Para determinar se o prog em si, em geral, é estatisticamente significativo, podemos usar o comando de teste para obter o teste de dois graus de liberdade desta variável. O teste de qui-quadrado de dois graus de liberdade indica que prog. Em conjunto, é um preditor estatisticamente significativo de emwards. Para ajudar a avaliar o ajuste do modelo, o comando estat gof pode ser usado para obter o teste de qui-quadrado de qualidade. Este não é um teste dos coeficientes do modelo (que vimos na informação do cabeçalho), mas um teste da forma do modelo: A forma do modelo de poisson se encaixa nos nossos dados. Concluímos que o modelo se encaixa razoavelmente bem porque a bondade de ajuste O teste do qui-quadrado não é estatisticamente significativo. Se o teste tivesse sido estatisticamente significativo, isso indicaria que os dados não se encaixam bem no modelo. Nessa situação, podemos tentar determinar se existem variáveis preditoras omitidas, se nossa suposição de linearidade se mantiver e se houver uma questão de sobre-dispersão. Às vezes, podemos querer apresentar os resultados da regressão como taxas de incidência, podemos usar a opção irr. Esses valores IRR são iguais aos nossos coeficientes a partir da saída acima exponencial. A saída acima indica que a taxa de incidência para 2.prog é 2,96 vezes a taxa de incidência para o grupo de referência (1.prog). Da mesma forma, a taxa de incidência para 3.prog é 1,45 vezes a taxa de incidência para o grupo de referência que mantém as demais variáveis constantes. A porcentagem de alteração na taxa de incidência de emwards é um aumento de 7 para cada aumento de unidade em matemática. Lembre-se da forma da nossa equação do modelo: log (numawards) Interceptar b 1 (prog2) b 2 (prog3) b 3 matemática. Isso implica: numwards exp (Intercept b 1 (prog2) b 2 (prog3) b 3 matemática) exp (Interceptação) exp (b 1 (prog2)) exp (b 2 (prog3)) exp (b 3 matemática) Os coeficientes têm Um efeito aditivo na escala log (y) e o IRR tem um efeito multiplicativo na escala y. Para obter informações adicionais sobre as diversas métricas nas quais os resultados podem ser apresentados, e a interpretação de tais, consulte Modelos de regressão para variáveis categóricas dependentes usando Stata, segunda edição por J. Scott Long e Jeremy Freese (2006). Para entender melhor o modelo, podemos usar o comando de margens. Abaixo, usamos o comando de margens para calcular as contagens previstas em cada nível de prog. Segurando todas as outras variáveis (neste exemplo, matemática) no modelo em seus valores médios. No resultado acima, vemos que o número previsto de eventos para o nível 1 do prog é cerca de .21, mantendo a matemática em sua direção. O número previsto de eventos para o nível 2 do prog é maior em 0,62, e o número previsto de eventos para o nível 3 do prog é de cerca de .31. Observe que a contagem prevista do nível 2 do prog é (.6249446.211411) 2,96 vezes maior do que a contagem prevista para o nível 1 do prog. Isso corresponde ao que vimos na tabela de saída do IRR. Abaixo, obteremos as contagens previstas para valores de matemática que variam de 35 a 75 em incrementos de 10. A tabela acima mostra que com prog nos valores observados e matemática realizada em 35 para todas as observações, a contagem média prevista (ou número médio De prêmios) é cerca de .13 quando a matemática 75, a contagem média prevista é de cerca de 2,17. Se compararmos as contagens previstas em matemática 35 e matemática 45, podemos ver que a proporção é (.2644714.1311326) 2.017. Isso corresponde ao IRR de 1.0727 para uma variação de 10 unidades: 1.072710 2.017. O comando fitstat escrito pelo usuário (bem como os comandos Statas estat) podem ser usados para obter informações adicionais que podem ser úteis se você quiser comparar modelos. Você pode digitar findit fitstat para baixar este programa (consulte Como eu usei o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Você pode representar graficamente o número previsto de eventos com os comandos abaixo. O gráfico indica que a maioria dos prêmios são previstos para aqueles no programa acadêmico (prog 2), especialmente se o aluno tiver um alto índice de matemática. O menor número de prêmios previstos é para aqueles estudantes no programa geral (prog 1). Coisas a considerar Se a superdispersão parece ser um problema, primeiro devemos verificar se nosso modelo está especificamente especificado, como variáveis omitidas e formas funcionais. Por exemplo, se omitimos o prog variável do preditor no exemplo acima, nosso modelo parece ter um problema com a sobre-dispersão. Em outras palavras, um modelo mal especificado pode apresentar um sintoma como um problema de sobre-dispersão. Supondo que o modelo esteja corretamente especificado, você pode querer verificar a sobredispersão. Existem várias maneiras de fazer isso, incluindo o teste de razão de verossimilhança do parâmetro alfa de sobre dispersão executando o mesmo modelo de regressão usando a distribuição binomial negativa (nbreg). Uma causa comum da sobre-dispersão é o excesso de zeros, que por sua vez são gerados por um processo de geração de dados adicional. Nessa situação, deve-se considerar o modelo de inflação zero. Se o processo de geração de dados não permitir qualquer 0s (como o número de dias gastos no hospital), um modelo truncado em zero pode ser mais apropriado. Os dados de contagem geralmente têm uma variável de exposição, o que indica o número de vezes que o evento poderia ter acontecido. Essa variável deve ser incorporada em um modelo de Poisson com o uso da opção exp (). A variável de resultado em uma regressão de Poisson não pode ter números negativos, e a exposição não pode ter 0s. Em Stata, um modelo de Poisson pode ser estimado através do comando glm com o link de log e a família Poisson. Você precisará usar o comando glm para obter os resíduos para verificar outros pressupostos do modelo de Poisson (veja Cameron e Trivedi (1998) e Dupont (2002) para obter mais informações). Existem muitas medidas diferentes de pseudo-R-quadrado existentes. Todos tentam fornecer informações semelhantes às fornecidas pelo R-squared na regressão OLS, mesmo que nenhuma delas possa ser interpretada exatamente como o R-quadrado na regressão OLS é interpretado. Para uma discussão de vários pseudo-R-quadrados, veja Long e Freese (2006) ou nossa página de FAQ O que são pseudo R-squareds. A regressão de Poisson é estimada através da estimativa de máxima verossimilhança. Geralmente, requer um grande tamanho de amostra. Referências Cameron, A. C. e Trivedi, P. K. (2009). Microeconometria usando Stata. College Station, TX: Stata Press. Cameron, A. C. e Trivedi, P. K. (1998). Análise de Regressão de Contagem de Dados. Nova York: Cambridge Press. Cameron, A. C. Avança em Count Data Regression Talk para o Workshop de Estatística Aplicada, 28 de março de 2009. cameron. econ. ucdavis. eduracdcount. html. Dupont, W. D. (2002). Modelagem Estatística para Pesquisadores Biomédicos: Uma Introdução Simples à Análise de Dados Complexos. Nova York: Cambridge Press. Long, J. S. (1997). Modelos de regressão para variáveis categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. Long, J. S. e Freese, J. (2006). Modelos de regressão para variáveis categóricas dependentes usando o Stata, segunda edição. College Station, TX: Stata Press. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
No comments:
Post a Comment