CoPEP

Comparação entre metodologias de idade-período-coorte para o estudo de uma medida da progressão escolar no Brasil

Introdução A aplicação dos modelos idade-período-coorte (IPC) tem sido objeto de intenso debate na Demografia desde 1970, especialmente a partir do trabalho de Mason et al. (1973). De forma sintética, estes modelos buscam avaliar em que medida um fenômeno de interesse estaria sendo determinado por variações de período, variações na idade, ou variações interativas entre período e idade (coorte).

Efeitos de idade estão associados ao diferencial nos riscos conforme a idade.

Ademais, a idade pode refletir a evolução de processos biológicos, psicológicos e a mudança nos papéis sociais a cada faixa etária. Os efeitos de período, por sua vez, refletem as mudanças no fenômeno de interesse que atingem todos os grupos etários. Em geral, variações de período fornecem uma medida das condições ambientais, econômicas e sociais vigentes. Já os efeitos de coorte podem estar refletindo mudanças entre um grupo de indivíduos com a mesma idade.

Esses efeitos podem ser representados por mudanças genéticas ou sociais (RODGERS, 1982; HALLI; RAO, 1992; YANG; FU; LAND, 2004).

A principal controvérsia na aplicação dos modelos IPC é como lidar com o chamado problema da identificação. Como há uma dependência linear entre idade, período e coorte (período = idade + coorte), a matriz de design XTX é singular, ou seja, a inversa de XTX não existe. Por conseguinte, a solução para as equações estimáveis não é única e não é possível estimar os três efeitos separados sem que sejam impostas restrições de identificação. A usual estratégia para identificação do modelo IPC consiste na imposição de uma igualdade entre os parâmetros do modelo (FIENBERG; MASON, 1985). Todavia, esta solução recebeu muitas críticas, as quais tendem a reforçar o caráter ad hoc ou mesmo ateórico da escolha das restrições de identificação (SMITH, 2004).

A partir de avanços na bioestatística, foram testadas funções que seriam invariantes às restrições nos parâmetros dentro do arcabouço IPC. Entre estas, surgiu o estimador intrínseco (EI), descrito por Yang, Fu e Land (2004), baseado em funções estimáveis da decomposição do valor singular de matrizes.

Este estimador, além de prover soluções únicas dos estimadores de idade, período e coorte, permite que o modelo seja identificado mediante mínimas suposições ou informações a priori. Ademais, os autores demonstraram que o EI apresenta propriedades estatísticas desejáveis nas análises IPC com períodos de tempo fixo (YANG; FU; LAND, 2004; YANG, 2008).

Nesse contexto, o objetivo deste artigo é realizar um exercício de comparação metodológica de dois estimadores IPC: o estimador restrito convencional obtido pelos modelos lineares generalizados (MLGR); e o estimador intrínseco (EI). Os dois instrumentais serão contrapostos em termos da estimativa dos parâmetros, do ajuste aos valores observados e da eficiência do modelo. O objeto de interesse são as contribuições dos efeitos de idade, período e coorte nas mudanças temporais na probabilidade de progressão para a 5ª série do ensino fundamental entre as mulheres. A modelagem IPC das probabilidades de progressão por série possui uma clara interpretação substantiva: efeitos de idade refletem tanto a idade mínima de entrada no sistema de ensino como também o dilema entre trabalho e estudo que surge ao longo da carreira educacional; efeitos de período estão associados às diferentes conjunturas econômica e política, bem como ao estado das políticas educacionais; finalmente, efeitos de coorte refletem características sociais peculiares a determinados grupos de indivíduos.

A opção pelo estudo da probabilidade de progressão para a 5ª série do ensino fundamental deveu-se ao fato de que as chances de progressão nesta série se elevaram de forma considerável a partir da década de 1980 ' em cerca de 20 pontos percentuais no período (GUIMARÃES, 2010). Ademais, verificou-se que não há um diferencial no comportamento ao longo do tempo nas probabilidades de progressão entre homens e mulheres e, desta forma, optou-se pela análise das probabilidades de progressão das mulheres.

Além de ser de grande importância substantiva, a análise IPC das probabilidades de progressão por série (PPS) possui aplicação para a elaboração de projeções educacionais. Uma vez que é demonstrada a existência de uma relação formal entre a PPS e os anos médios de estudo (RIOS-NETO, 2004), uma modelagem consistente das probabilidades de progressão por série permite, então, a construção de cenários factíveis das variações futuras nos componentes de idade, período e coorte. A partir destas probabilidades projetadas, Rios-Neto (2004) demonstrou que é possível obter os anos médios de estudo da população no futuro. Nesse sentido, a comparação entre metodologias adquire uma importância fundamental para que se obtenham projeções educacionais de qualidade e acuradas.

Este artigo está organizado em seis seções, incluindo esta introdução. Na segunda seção é apresentada uma revisão da literatura dos modelos IPC, em especial em relação às estratégias e soluções para contornar o problema da identificação. A terceira trata exclusivamente do estimador intrínseco descrito por Yang, Fu e Land (2004). A quarta descreve os dados e os passos metodológicos, enquanto a quinta seção reporta os procedimentos e os resultados da comparação entre o estimador restrito convencional e o estimador intrínseco para a análise da probabilidade de progressão das mulheres brasileiras para a 5ª série do ensino fundamental, ou seja, a probabilidade de conclusão da 5ª série, dado que concluiu a 4ª série (e4). Finalmente, a sexta seção sumariza as evidências deste estudo e propõe uma agenda futura de pesquisas.

A questão da identificação dos modelos de idade-período-coorte: uma revisão O problema da identificação dentro do arcabouço IPC pode ser descrito da seguinte forma. Considere um modelo linear geral cuja variável dependente seja uma taxa demográfica Tij, expressa em termos da razão entre o número de ocorrências Oije expostos ao risco Eija cada grupo etário i e período j:

Neste modelo, µ é a constante do modelo, α corresponde aos parâmetros para os efeitos de idade e i = 1,...,a é o indexador para o grupo etário, β compreende os parâmetros referentes aos efeitos de período, onde j=1,...,p indexa o período e γ representa os parâmetros para os efeitos de coorte e o indexador k=a+p−1 denota a coorte. Ainda, eij é o termo de erro aleatório para a idade i e período j cuja esperança é zero.

O modelo 1 se insere na classe dos chamados Modelos Lineares Generalizados (MLG). De acordo com Rios-Neto e Oliveira (1999), um MLG é construído a partir da escolha de uma função de ligação apropriada ao fenômeno de interesse e de uma distribuição de probabilidade para a variável resposta.

Neste artigo, a probabilidade de progressão por série é tratada como uma variável dicotômica que apresenta uma distribuição binomial. Ou seja, para cada combinação de idade-período tem-se a frequência absoluta dos que progrediram em determinada transição escolar e daqueles que não progrediram. A partir destas quantidades, são obtidas as chances de progredir em relação a não progredir. A ligação canônica é, então, realizada pela função logística, resultando em um modelo logito da seguinte forma:

[/img/revistas/rbepop/v28n2/a07eq02.jpg]

Onde eij expressa o logaritmo da razão das chances de progredir numa transição escolar para um determinado grupo etário e período e pij é a probabilidade de progressão na célula i,j. De acordo com Yang, Fu e Land (2004), o modelo 2 pode apenas ser operacionalizado pela centralização dos parâmetros ou por meio da imposição de identificação de uma de cada covariável de idade, período e coorte como sendo a categoria de referência.

Escolhida uma das operacionalizações para o modelo, pode-se reescrever o modelo 2 na forma de uma equação linear geral, onde Y representa o logaritmo da chance de progressão em cada uma das células, X é a matriz constituída por variáveis indicadoras com dimensão m=1+(a−1)+(p−1)+(a+p−2) e ε é o vetor de erro aleatório:

[/img/revistas/rbepop/v28n2/a07eq03.jpg]

Onde β corresponde aos parâmetros populacionais, cujos estimadores amostrais são:

[/img/revistas/rbepop/v28n2/a07eq04.jpg]

A solução numérica para obtenção dos parâmetros amostrais para β por máxima verossimilhança do modelo 3 pode ser descrita por:

[/img/revistas/rbepop/v28n2/a07eq05.jpg]

A questão fundamental é que não existe apenas um vetor de coeficientes estimados para o modelo 3. Isto ocorre porque XTX não é invertível (ou seja, é uma matriz singular), devido a uma perfeita relação linear entre os efeitos de idade, período e coorte. Na literatura, denomina-se este impasse como problema de identificação na análise IPC. Por conseguinte, torna-se impossível separar as estimativas dos efeitos de coorte, idade e período sem que sejam impostas restrições adicionais aos coeficientes do modelo, isto é, além da centralização ou da adoção de categorias de referência.

A partir desta limitação, iniciou-se nas ciências sociais e na epidemiologia um intenso debate sobre qual seria a melhor restrição de identificação a ser adotada nos modelos IPC. Mason et al. (1973) e Fienberg e Mason (1985) foram os primeiros a propor uma solução a este problema. De acordo com os autores, uma forma de tornar a matriz XTX invertível e, consequentemente, obter uma solução única para os parâmetros seria impor uma restrição de igualdade no vetor de coeficientes β. Dessa forma, bastaria admitir que os coeficientes do primeiro e segundo períodos, ou da primeira e segunda coortes, ou do primeiro e segundo grupos etários, por exemplo, fossem iguais.

Esta estratégia, contudo, mostrou-se sujeita a diversas fragilidades, as quais foram apontadas pela literatura. A primeira delas se pautou na dificuldade de separar os efeitos de idade, período e coorte por meio dos métodos estatísticos. Glenn (1976), por exemplo, argumentou pela necessidade de que, na aplicação do IPC, houvesse um esforço adicional para averiguar em que medida os efeitos de idade, período e coorte seriam aditivos. Dito de outra forma, seria necessário que o pesquisador se certificasse de que, por exemplo, os efeitos de idade sejam constantes a cada período ou coorte. Esta questão é relevante na medida em que os eventos históricos (período) podem afetar os indivíduos de forma distinta ao longo do ciclo de vida (idade). De forma análoga, pode-se suspeitar que os efeitos de idade podem não ser os mesmos entre várias coortes.

Outras críticas posteriores reforçaram o caráter ad hoc na restrição dos coeficientes do modelo, a possibilidade de que sejam obtidos efeitos falsos sobre o fenômeno ao se utilizar a proposta de Mason et al. (1973) e Fienberg e Mason (1985), ou mesmo a necessidade de um conhecimento profundo substantivo que forneça subsídios à correta identificação. Utilizando exercícios de simulação, Rodgers (1982) mostrou que a adoção de diferentes estratégias de identificação pode não resultar em estimativas verdadeiras dos efeitos de idade, período e coorte. Sua principal contribuição foi argumentar, portanto, que a solução proposta por Mason et al. (1973) pode impactar de forma significativa as estimativas do modelo. Heckman e Robb (1985), por outro lado, argumentam que informações adicionais devem ser utilizadas para superar o problema de identificação, ou seja, os cientistas sociais deveriam aprimorar seu conhecimento de variáveis intervenientes ou proxies dos efeitos de idade, período e coorte. De uma perspectiva não tão crítica, Mason e Smith (1985) propõem que uma regra plausível para a seleção das restrições seria utilizar conhecimento a priori ou informações externas. Finalmente, a crítica feita por Rodgers (1982) e Yang et al. (2008) é que todo e qualquer modelo exatamente identificado a um conjunto de dados produzirá as mesmas medidas de qualidade de ajuste do modelo e, portanto, este fato inviabiliza o uso de qualquer critério para selecionar o modelo restrito com melhor ajuste.

A literatura recente que discute o problema da identificação recebeu contribuições significativas da bioestatística e da epidemiologia.1 Em uma das linhas deste ramo de estudo que utiliza funções estimáveis, insere-se a abordagem baseada num novo estimador: o chamado estimador intrínseco, introduzido por Fu, Knight e Fu; Fu, Hall e Rohan (apud YANG; FU; LAND, 2004).

Esse instrumento se assenta na decomposição do valor singular de matrizes e provê estimadores robustos dos efeitos de idade, período e coorte. Como a aplicação deste método é de interesse central neste artigo, sua formalização será apresentada na próxima seção.

Por fim, uma contribuição importante para as estratégias de identificação no arcabouço IPC foi dada por Winship e Harding (2008). Os autores basearam-se na abordagem dos modelos causais ou estruturais proposta por Pearl (2000) e desenvolveram uma metodologia na qual os mecanismos pelos quais a idade, o período e a coorte afetam a variável resposta são de interesse central. O teorema proposto pelos autores é que, para a identificação dos coeficientes no modelo IPC, é apenas necessário que sejam especificadas todas as variáveis intervenientes dos efeitos de idade, período e coorte, respectivamente. Por se tratar de uma abordagem estrutural, os autores consideram que o modelo poderá eventualmente estar sobreidentificado e, neste caso, deve-se testar o ajuste do modelo global e de seus componentes.

O estimador intrínseco (EI) Nesta seção formaliza-se a construção do estimador intrínseco, bem como suas propriedades estatísticas, com base nos trabalhos de Yang, Fu e Land (2004), Yang (2008) e Yang et al. (2008). Considerando-se a equação 3, que expressa o modelo linear geral do modelo IPC, a dependência linear entre os efeitos de idade, período e coorte pode ser representada na forma matricial da seguinte maneira, a partir de um vetor B0 não nulo:

[/img/revistas/rbepop/v28n2/a07eq055.jpg]

A equação 5 é resultado do fato de que a matriz X é singular, isto é, existe alguma combinação linear das colunas da matriz de design X que resulta em um vetor nulo. Nos termos da Álgebra Linear, diz-se que a matriz X não possui posto completo.

Kupper et al. (apud YANG; FU; LAND, 2004) demonstraram que, se uma matriz possui posto menor que completo, seu espaço paramétrico pode ser decomposto na soma direta de dois subespaços lineares que são perpendiculares entre si:

[/img/revistas/rbepop/v28n2/a07eq06.jpg]

Onde: ⊕ representa a soma direta dos dois subespaços lineares N e T, que são perpendiculares entre si; N é o espaço nulo com uma dimensão de X medido pelo vetor SB0 com um número real S; e T corresponde ao subespaço complementar ortogonal a N. Devido a esta decomposição ortogonal do espaço paramétrico, cada uma das infinitas soluções do modelo IPC irrestrito pode ser escrita como:

[/img/revistas/rbepop/v28n2/a07eq07.jpg]

Onde: S é um escalar que corresponde a uma solução específica para o problema da identificação e B0 compreende um autovetor de norma euclidiana ou de tamanho 1. Yang, Fu e Land (2004) argumentam que este autovetor B0 independe das taxas observadas Y e, portanto, é completamente determinado pelo número de grupos etários e períodos, ou seja, B0 possui uma forma específica que é função tão somente da matriz de design X.

Kupper et al. (apud YANG; FU; LAND, 2004) mostraram que B0 tem a seguinte forma:

[/img/revistas/rbepop/v28n2/a07eq08.jpg]

A implicação direta da equação 8 é que B0 é o vetor normalizado de [/img/ revistas/rbepop/v28n2/a07tx01.jpg], o qual corresponde a:

[/img/revistas/rbepop/v28n2/a07eq09.jpg]

e i, p e c denotam, respectivamente, os grupos etários, períodos e coortes.

Yang, Fu e Land (2004) ressaltam que a grande importância da equação 9 é que o vetor B0 é fixo, ou seja, é independente da variável-resposta Y e, portanto, não possui nenhum papel na determinação dos coeficientes do modelo. Todavia, quando alguma restrição é imposta ao vetor de coeficientes, tal como propõem Fienberg e Mason (1985), então este princípio é violado na medida em que s, na equação 6, assume um valor diferente de zero.

Portanto, é possível demonstrar que qualquer estimador do modelo IPC pode ser descrito por uma restrição de identificação na matriz de design X, conforme a equação 6, e B é o denominado estimador intrínseco que é ortogonal ao espaço nulo, sendo determinado pela inversa generalizada de Moore-Penrose.

Yang et al. (2008) sugerem o seguinte algoritmo computacional para que se obtenha o estimador intrínseco, com base na regressão por componentes principais: * obtenha os autovalores e os autovetores (componentes principais) da matriz XTX; * normalize os autovetores de forma que eles tenham tamanho 1; * identifique o autovetor B0que corresponde ao único autovalor 0; * estime uma regressão por componentes principais com variável-resposta Y e a matriz de design U, sendo que esta última contém os vetores-coluna que são os componentes principais determinados pelos autovalores não nulos; * utilize uma matriz ortonormal de todos os autovetores para transformar os coeficientes da regressão por componentes principais em coeficientes da regressão do estimador intrínseco B.

Yang et al. (2008) alertam que, embora o estimador intrínseco possa ser derivado de uma regressão por componentes principais, os coeficientes estimados por este modelo não serão interpretáveis em termos da idade, período e coorte.

Portanto, torna-se necessária a transformação ortogonal destas estimativas.

Fu, Hall e Rohan (2004) e Yang, Fu e Land (2004) enunciam e demonstram matematicamente algumas propriedades estatísticas do estimador intrínseco.2 A primeira vantagem estatística do EI, segundo os autores, é que ele satisfaz a condição para a estimação de funções lineares do vetor de parâmetros b. Este é um dos fatores positivos das abordagens baseadas em funções estimáveis: são invariantes em relação à qual solução para as equações normais for obtida.

Ademais, estas funções são desejáveis como estimadores estatísticos, na medida em que são funções lineares do vetor de parâmetros não identificado que pode ser estimado sem viés − em outras palavras, o EI fornece estimadores não viesados dos efeitos de idade, período e coorte. Cabe mencionar que esta condição, devidamente formalizada por Kupper et al. (apud YANG; FU; LAND, 2004), implica que qualquer estimador restrito, ou seja, aquele que é obtido mediante a imposição de restrições de igualdade sobre o vetor de parâmetros, sempre produzirá estimativas viesadas dos efeitos de idade, período e coorte.

Em resumo, a primeira propriedade estatística do EI é que ele produz estimativas não viesadas dos coeficientes no arcabouço IPC para análise de taxas populacionais, considerando-se número finito fixo de períodos p. A propriedade assintótica do estimador intrínseco sugere que, à medida que o número de períodos aumenta, p → ∞, a arbitrariedade dos múltiplos possíveis estimadores por MLGR é removida e estes estimadores convergem para o estimador intrínseco B (YANG, FU; LAND, 2004).

Em segundo lugar, foi demonstrado que o EI é mais eficiente do ponto de vista estatístico − isto é, possui menor variância − do que qualquer estimador MLGR.

Em outras palavras, para qualquer número finito p de períodos de tempo, o estimador intrínseco B tem uma variância menor do que qualquer estimador restrito de MLGR. Ou seja, var([/img/revistas/rbepop/v28n2/a07tx02.jpg]) - var (B) é uma função definida e positiva para uma não trivial restrição de identificação no contexto do MLGR (YANG, FU; LAND 2004). Outra importante propriedade do estimador intrínseco que foi provada é que ele é assintoticamente consistente, isto é, quando p → ∞ ele converge para os parâmetros verdadeiros que geram a sequência de taxas do IPC.

Uma limitação, contudo, presente nos estimadores por modelos lineares generalizados restritos ainda persiste na solução EI. Foi dito na seção anterior que todo e qualquer modelo exatamente identificado a um conjunto de dados produzirá as mesmas medidas de qualidade de ajuste do modelo (RODGERS 1982, YANG et al., 2008). Dessa forma, o estimador intrínseco apresentará as mesmas medidas de qualidade de ajuste, tais como a log-verossimilhança e a deviance.Portanto, estas medidas não devem ser utilizadas para selecionar o modelo correto (YANG et al., 2008).

Dados e métodos Para este exercício, utilizaram-se os microdados da PNAD-IBGE, no período 1981 a 2008. Embora a PNAD não se constitua num painel verdadeiro, que acompanha os indivíduos ao longo do tempo, sua análise no contexto do modelo IPC pode ser viável, pois uma forma de se acompanhar cada coorte ao longo de repetidas pesquisas é olhar para os membros dessa coorte que foram selecionados de forma aleatória em cada ano (OLIVEIRA, 2002). Dessa forma, por exemplo, os indivíduos que tinham sete anos em 1981 teriam oito anos em 1982, e assim por diante.

A faixa etária de estudo, neste artigo, corresponde dos 10 aos 29 anos, pois se requer que, na análise da transição escolar de nosso interesse, os indivíduos analisados estivessem expostos ao risco de realizar a progressão. Dessa forma, têm-se 20 intervalos unitários de idade × 28 períodos. Como a série histórica da PNAD possui três descontinuidades (1991, 1994 e 2000), utilizou-se uma interpolação linear do número de promovidos e de indivíduos em risco nos anos adjacentes, de forma a completar a série.

Para a estimação do modelo, a ligação canônica empregada foi a função logística. A opção por esta forma funcional do modelo teve o objetivo de garantir que as probabilidades de progressão por série preditas estivessem inseridas no intervalo (0,1). O método de estimação utilizado foi o da máxima verossimilhança.

Em relação à especificação do modelo, optou-se pela estimação do modelo idade- período-coorte em sua forma completa, para verificar as diferenças entre as metodologias EI e MLGR e avaliar a importância substantiva dos efeitos de idade, período e coorte para a probabilidade de transição em cada uma das séries. Sabe-se, contudo, que o procedimento ideal seria testar a importância de cada uma das variáveis a partir de um modelo nulo e, então, incorporar uma a uma as variáveis de idade, período e coorte e avaliar sua significância, por meio da estatística deviance e do R2.

Outro procedimento importante na análise IPC não efetuado neste trabalho foi testar a presença de efeitos interativos entre idade, período e coorte, ou mesmo a necessidade de inclusão de termos quadráticos. Contudo, por ser este um artigo direcionado para a comparação de metodologias, não se buscou fundamentalmente um ajuste perfeito aos dados, mas sim verificar o potencial de cada arcabouço para estimação de um modelo IPC em sua forma completa.

Para estimação do modelo com base no estimador intrínseco, foi utilizado o algoritmo disponibilizado no STATA por Schulhofer-Wohl e Yang (2006). Estes autores ressaltam que no algoritmo, para computar o estimador intrínseco, é adotada a restrição de que a soma dos coeficientes seja igual a zero. Para fins computacionais, são incluídas variáveis indicadoras para cada um dos valores das variáveis idade, período e coorte na matriz de variáveis explicativas, mas uma das categorias de cada uma delas é omitida. Após a regressão por componentes principais, contudo, a restrição de que os parâmetros devem ter soma zero permite que sejam obtidas as estimativas para as categorias omitidas e, portanto, têm-se as estimativas para todas as categorias de idade, período e coorte, o que não ocorre com o MLGR.

Para estimar o modelo linear generalizado restrito, empregou-se o algoritmo glm também disponível no STATA (StataCorp 2007). A estratégia de identificação consistiu em adotar a imposição de que as duas coortes mais antigas tivessem os mesmos coeficientes em todas as transições escolares analisadas (ou seja, as coortes de 1952 e 1953 seriam iguais). Considera-se que esta alternativa é plausível, uma vez que pode se admitir que as duas coortes mais antigas não tenham passado por um processo de mudança social tão significativo. Cabe mencionar, ainda, que outras estratégias poderiam ser utilizadas, quais sejam: igualar os dois últimos períodos, igualar as duas coortes mais recentes ou os dois períodos mais recentes. Contudo, considerou-se que os períodos e coortes mais recentes podem ter diferenças significativas em virtude das políticas educacionais recentemente adotadas no Brasil. Não se cogitou aqui restringir os parâmetros de idade, pois assumiu-se que o comportamento da progressão por idade é singular e de interesse substantivo, uma vez que a variação nas probabilidades de progressão por idade numa determinada série reflete o crônico padrão brasileiro de distorção idade-série.

Resultados Passa-se, neste momento, para a comparação dos resultados dos modelos idade- período-coorte estimados para a probabilidade de progressão das mulheres brasileiras para a 5ª série do ensino fundamental, segundo o estimador intrínseco e os modelos lineares generalizados restritos (com a suposição de que as duas coortes mais antigas fossem iguais). Antes de realizar a análise, cabe ressaltar que a interpretação aqui pode ser feita sem qualquer prejuízo, tomando-se como base os coeficientes estimados como medida para o comportamento das probabilidades de progressão por série. Isto porque as probabilidades de progressão preditas pelo modelo podem ser obtidas diretamente pelo exponencial dos coeficientes, tanto no modelo linear generalizado restrito quanto naquele baseado no estimador intrínseco. Dessa forma, a interpretação do comportamento dos coeficientes estimados é similar à interpretação do comportamento das probabilidades de progressão por série, já que a segunda é uma transformação uma-a-uma da primeira.

Vale relembrar ainda que, tal como explicitado anteriormente, os dois modelos possuem as mesmas medidas de qualidade do ajuste (deviance, AIC, BIC e log- verossimilhança), sendo, portanto, inviável a utilização destes critérios na seleção do melhor modelo. Os valores dos coeficientes estimados, bem como as estatísticas de qualidade do ajuste dos dois modelos, estão reportados na Tabela_1 do Anexo.

O Gráfico_1 mostra os coeficientes estimados pelos modelos EI e MLGR para o modelo IPC da probabilidade de progressão para a 5ª série do ensino fundamental das mulheres. Mediante a análise gráfica, busca-se verificar em que medida as estimativas dos parâmetros derivadas de cada método são discrepantes. Antes, contudo, de dar prosseguimento à análise dos gráficos, cabe mencionar que, na estimação do modelo, o EI utiliza a restrição de que a soma dos coeficientes de idade, período e coorte seja igual a zero. Por sua vez, o MLGR utiliza a restrição de omitir uma categoria de referência, no caso a primeira categoria de idade, período e coorte. Diante disso, para manter a comparabilidade entre os coeficientes dos dois modelos, os parâmetros do modelo MLGR foram centralizados em torno da média dos coeficientes de idade, período e coorte.

Este procedimento é conhecido como effect coding e, a partir dele, o intercepto é igual à média global e o intercepto para cada variável expressa a diferença entre o grupo e a média global (HOSMER; LEMESHOW, 2000).

[/img/revistas/rbepop/v28n2/a07graf01.jpg]

Comparando-se os coeficientes estimados para a probabilidade de progressão para a 5ª série, é possível verificar que, no caso das mulheres, os efeitos de idade apresentaram pouca diferença entre os métodos, enquanto os efeitos de período e coorte mostraram magnitudes bastante distintas (Gráfico_1). A análise substantiva do comportamento dos coeficientes de idade, período e coorte é capaz de revelar características interessantes sobre as variações nas taxas observadas. Verifica-se, num primeiro momento, que a probabilidade de progressão para a 5ª série é muito baixa aos 11 anos, elevando-se, a partir daí, de forma acelerada até aproximadamente os 19 anos de idade, quando então se estabiliza (Gráfico_1). Este padrão por idade das probabilidades de progressão é coerente com o elevado padrão de defasagem idade-série no Brasil, decorrente do fato de que os indivíduos tendem a não concluir a 5ª série do ensino fundamental na idade adequada (RIOS-NETO et al., 2010). Os efeitos de período obtidos pelo estimador intrínseco e modelo linear generalizado restrito apontam para uma elevação na probabilidade de progressão das mulheres para a 5ª série do ensino fundamental, comportamento este coerente com a expansão desse nível de ensino ocorrida no Brasil (Gráfico_1). Já os efeitos de coorte possuem comportamento parabólico para as coortes nascidas entre 1952 e 1997, com um pico para a importância deste efeito para as coortes nascidas na década de 1980 (Gráfico_1).

Uma explicação plausível para o comportamento parabólico dos efeitos de coorte sobre a probabilidade de progressão para a 5ª série é o aumento expressivo das taxas de matrícula para as coortes assinaladas. Oliveira (2007) mostra que, antes da década de 1960, as taxas de matrícula no ensino fundamental como um todo eram bastante baixas. Contudo, no período da ditadura militar, o número de matriculados cresceu a uma taxa média de 3,9% ao ano, e depois desacelerou entre 1985 e 1999. Dessa forma, embora o aumento de número de matrículas possa estar associado a efeitos de período (políticas educacionais), pode-se especular que tal crescimento vertiginoso na década de 1980 esteja também relacionado às características sociais peculiares destas coortes.

Agora passa-se à análise da eficiência dos dois métodos. Como visto anteriormente, foi demonstrado matematicamente que o EI possui menor variância do que qualquer estimador MLGR, isto é, qualquer estimador MLGR obtido por quaisquer restrições de identificação. Para investigar esta assertiva no estudo das probabilidades de progressão das mulheres para a 5ª série do ensino fundamental, construímos gráficos que mostram o comportamento dos coeficientes estimados por EI e pelo MLGR com seus respectivos intervalos de confiança a um nível de 95%.

É possível depreender pelos Gráficos_2, 3 e 4 que, de fato, o estimador intrínseco é mais eficiente ' isto é, possui menor variância − do que o MLGR, para os efeitos de idade, período e coorte. Analisando os gráficos para os efeitos de idade, verifica-se que o estimador intrínseco possui uma excelente eficiência em relação ao MLGR. A variância do EI, contudo, aumenta quando os coeficientes para período ou coorte não são significativos, mas ainda assim este estimador possui de fato uma menor variância que o MLGR.

[/img/revistas/rbepop/v28n2/a07graf02.jpg]

[/img/revistas/rbepop/v28n2/a07graf03.jpg]

[/img/revistas/rbepop/v28n2/a07graf04.jpg]

Cabe ressaltar que a utilização de parâmetros com baixa variância no modelo IPC é muito importante e desejável para a construção de projeções educacionais aleatórias com base na PPS e nos modelos IPC. Isto porque uma forma de se obterem estimativas futuras das probabilidades de progressão por série, que incluam uma margem de erro (por exemplo, intervalo de confiança), é extrapolar a tendência observada no erro-padrão. Dessa maneira, ter-se-ia uma medida da aleatoriedade nas projeções educacionais. Portanto, se dispomos de estimativas cujo erro-padrão é menor, então a extrapolação desta medida tenderá a ser mais eficiente do que outra cujo erro-padrão é mais elevado.

Considerações finais Os modelos idade-período-coorte possuem uma forte tradição na Demografia. Neste artigo, com a análise IPC, buscou-se investigar as diferentes fontes de variação na probabilidade de progressão para a 5ª série do ensino fundamental das mulheres brasileiras.

Este artigo possui, contudo, um forte caráter metodológico. Procurou-se comparar duas metodologias, sendo a primeira delas usual na literatura demográfica, baseada nos trabalhos de Fienberg e Mason (1985), a qual denominamos de solução por modelos lineares generalizados restritos (MLGR), e uma metodologia recente que emergiu de avanços na epidemiologia, o chamado estimador intrínseco (EI). Argumentou-se que a solução baseada no EI busca solucionar um grande impasse no que concerne ao problema da identificação no arcabouço IPC. A grande inovação deste estimador é que, a partir da decomposição do espaço paramétrico do modelo IPC irrestrito (ou seja, aquele não identificado), este estimador especial B pode ser derivado tanto pelo método de projeção quanto pelo método de regressão por componentes principais.

Ademais, outra singularidade deste estimador é que a única restrição necessária baseia-se na orientação do estimador no espaço paramétrico, a qual depende fundamentalmente de uma matriz de design X fixa, isto é, do número de períodos e grupos de idade.

Foi visto também que o estimador intrínseco apresenta, segundo a literatura, excelentes propriedades estatísticas. Em grande medida, as evidências empíricas deste artigo corroboram com esta assertiva. Além de apresentar parâmetros estimados condizentes com a evolução histórica das políticas educacionais no Brasil e de convergir para os valores verdadeiros dos parâmetros em grandes amostras, este estimador é mais eficiente do que aqueles baseados nos modelos lineares generalizados restritos (MLGR). Por sua vez, os estimadores por MLGR, com a suposição de que os parâmetros das duas coortes mais antigas fossem iguais, se mostraram na grande maioria das vezes não significativos e com variância maior do que os EI.

Diante do exposto, argumenta-se que o estimador intrínseco apresenta-se de fato como uma ferramenta poderosa na análise IPC. Por conseguinte, a construção de projeções probabilísticas das PPSs, a partir deste modelo, se mostra bastante promissora. Este é o próximo passo que pretendemos implementar em artigos futuros. Para tanto, é necessário que se proceda com a construção passo-a-passo do modelo IPC, com o teste da inclusão de cada uma das variáveis indicadoras de idade, período e coorte, a comparação do ajuste dos modelos e o teste para inclusão de variáveis interativas ou termos quadráticos. Este procedimento permitirá que se obtenha o melhor modelo IPC para as séries de progressão escolar.

Text view

BrBRHUAp0102-30982011000200007

View options