Comparação entre metodologias de idade-período-coorte para o estudo de uma
medida da progressão escolar no Brasil
Introdução
A aplicação dos modelos idade-período-coorte (IPC) tem sido objeto de intenso
debate na Demografia desde 1970, especialmente a partir do trabalho de Mason et
al. (1973). De forma sintética, estes modelos buscam avaliar em que medida um
fenômeno de interesse estaria sendo determinado por variações de período,
variações na idade, ou variações interativas entre período e idade (coorte).
Efeitos de idade estão associados ao diferencial nos riscos conforme a idade.
Ademais, a idade pode refletir a evolução de processos biológicos, psicológicos
e a mudança nos papéis sociais a cada faixa etária. Os efeitos de período, por
sua vez, refletem as mudanças no fenômeno de interesse que atingem todos os
grupos etários. Em geral, variações de período fornecem uma medida das
condições ambientais, econômicas e sociais vigentes. Já os efeitos de coorte
podem estar refletindo mudanças entre um grupo de indivíduos com a mesma idade.
Esses efeitos podem ser representados por mudanças genéticas ou sociais
(RODGERS, 1982; HALLI; RAO, 1992; YANG; FU; LAND, 2004).
A principal controvérsia na aplicação dos modelos IPC é como lidar com o
chamado problema da identificação. Como há uma dependência linear entre idade,
período e coorte (período = idade + coorte), a matriz de design XTX é singular,
ou seja, a inversa de XTX não existe. Por conseguinte, a solução para as
equações estimáveis não é única e não é possível estimar os três efeitos
separados sem que sejam impostas restrições de identificação. A usual
estratégia para identificação do modelo IPC consiste na imposição de uma
igualdade entre os parâmetros do modelo (FIENBERG; MASON, 1985). Todavia, esta
solução recebeu muitas críticas, as quais tendem a reforçar o caráter ad hoc ou
mesmo ateórico da escolha das restrições de identificação (SMITH, 2004).
A partir de avanços na bioestatística, foram testadas funções que seriam
invariantes às restrições nos parâmetros dentro do arcabouço IPC. Entre estas,
surgiu o estimador intrínseco (EI), descrito por Yang, Fu e Land (2004),
baseado em funções estimáveis da decomposição do valor singular de matrizes.
Este estimador, além de prover soluções únicas dos estimadores de idade,
período e coorte, permite que o modelo seja identificado mediante mínimas
suposições ou informações a priori. Ademais, os autores demonstraram que o EI
apresenta propriedades estatísticas desejáveis nas análises IPC com períodos de
tempo fixo (YANG; FU; LAND, 2004; YANG, 2008).
Nesse contexto, o objetivo deste artigo é realizar um exercício de comparação
metodológica de dois estimadores IPC: o estimador restrito convencional obtido
pelos modelos lineares generalizados (MLGR); e o estimador intrínseco (EI). Os
dois instrumentais serão contrapostos em termos da estimativa dos parâmetros,
do ajuste aos valores observados e da eficiência do modelo. O objeto de
interesse são as contribuições dos efeitos de idade, período e coorte nas
mudanças temporais na probabilidade de progressão para a 5ª série do ensino
fundamental entre as mulheres. A modelagem IPC das probabilidades de progressão
por série possui uma clara interpretação substantiva: efeitos de idade refletem
tanto a idade mínima de entrada no sistema de ensino como também o dilema entre
trabalho e estudo que surge ao longo da carreira educacional; efeitos de
período estão associados às diferentes conjunturas econômica e política, bem
como ao estado das políticas educacionais; finalmente, efeitos de coorte
refletem características sociais peculiares a determinados grupos de
indivíduos.
A opção pelo estudo da probabilidade de progressão para a 5ª série do ensino
fundamental deveu-se ao fato de que as chances de progressão nesta série se
elevaram de forma considerável a partir da década de 1980 ' em cerca de 20
pontos percentuais no período (GUIMARÃES, 2010). Ademais, verificou-se que não
há um diferencial no comportamento ao longo do tempo nas probabilidades de
progressão entre homens e mulheres e, desta forma, optou-se pela análise das
probabilidades de progressão das mulheres.
Além de ser de grande importância substantiva, a análise IPC das probabilidades
de progressão por série (PPS) possui aplicação para a elaboração de projeções
educacionais. Uma vez que é demonstrada a existência de uma relação formal
entre a PPS e os anos médios de estudo (RIOS-NETO, 2004), uma modelagem
consistente das probabilidades de progressão por série permite, então, a
construção de cenários factíveis das variações futuras nos componentes de
idade, período e coorte. A partir destas probabilidades projetadas, Rios-Neto
(2004) demonstrou que é possível obter os anos médios de estudo da população no
futuro. Nesse sentido, a comparação entre metodologias adquire uma importância
fundamental para que se obtenham projeções educacionais de qualidade e
acuradas.
Este artigo está organizado em seis seções, incluindo esta introdução. Na
segunda seção é apresentada uma revisão da literatura dos modelos IPC, em
especial em relação às estratégias e soluções para contornar o problema da
identificação. A terceira trata exclusivamente do estimador intrínseco descrito
por Yang, Fu e Land (2004). A quarta descreve os dados e os passos
metodológicos, enquanto a quinta seção reporta os procedimentos e os resultados
da comparação entre o estimador restrito convencional e o estimador intrínseco
para a análise da probabilidade de progressão das mulheres brasileiras para a
5ª série do ensino fundamental, ou seja, a probabilidade de conclusão da 5ª
série, dado que concluiu a 4ª série (e4). Finalmente, a sexta seção sumariza as
evidências deste estudo e propõe uma agenda futura de pesquisas.
A questão da identificação dos modelos de idade-período-coorte: uma revisão
O problema da identificação dentro do arcabouço IPC pode ser descrito da
seguinte forma. Considere um modelo linear geral cuja variável dependente seja
uma taxa demográfica Tij, expressa em termos da razão entre o número de
ocorrências Oije expostos ao risco Eija cada grupo etário i e período j:

Neste modelo, µ é a constante do modelo, α corresponde aos parâmetros para os
efeitos de idade e i = 1,...,a é o indexador para o grupo etário, β compreende
os parâmetros referentes aos efeitos de período, onde j=1,...,p indexa o
período e γ representa os parâmetros para os efeitos de coorte e o indexador
k=a+p−1 denota a coorte. Ainda, eij é o termo de erro aleatório para a idade i
e período j cuja esperança é zero.
O modelo 1 se insere na classe dos chamados Modelos Lineares Generalizados
(MLG). De acordo com Rios-Neto e Oliveira (1999), um MLG é construído a partir
da escolha de uma função de ligação apropriada ao fenômeno de interesse e de
uma distribuição de probabilidade para a variável resposta.
Neste artigo, a probabilidade de progressão por série é tratada como uma
variável dicotômica que apresenta uma distribuição binomial. Ou seja, para cada
combinação de idade-período tem-se a frequência absoluta dos que progrediram em
determinada transição escolar e daqueles que não progrediram. A partir destas
quantidades, são obtidas as chances de progredir em relação a não progredir. A
ligação canônica é, então, realizada pela função logística, resultando em um
modelo logito da seguinte forma:
[/img/revistas/rbepop/v28n2/a07eq02.jpg]
Onde eij expressa o logaritmo da razão das chances de progredir numa transição
escolar para um determinado grupo etário e período e pij é a probabilidade de
progressão na célula i,j. De acordo com Yang, Fu e Land (2004), o modelo 2 pode
apenas ser operacionalizado pela centralização dos parâmetros ou por meio da
imposição de identificação de uma de cada covariável de idade, período e coorte
como sendo a categoria de referência.
Escolhida uma das operacionalizações para o modelo, pode-se reescrever o modelo
2 na forma de uma equação linear geral, onde Y representa o logaritmo da chance
de progressão em cada uma das células, X é a matriz constituída por variáveis
indicadoras com dimensão m=1+(a−1)+(p−1)+(a+p−2) e ε é o vetor de erro
aleatório:
[/img/revistas/rbepop/v28n2/a07eq03.jpg]
Onde β corresponde aos parâmetros populacionais, cujos estimadores amostrais
são:
[/img/revistas/rbepop/v28n2/a07eq04.jpg]
A solução numérica para obtenção dos parâmetros amostrais para β por máxima
verossimilhança do modelo 3 pode ser descrita por:
[/img/revistas/rbepop/v28n2/a07eq05.jpg]
A questão fundamental é que não existe apenas um vetor de coeficientes
estimados para o modelo 3. Isto ocorre porque XTX não é invertível (ou seja, é
uma matriz singular), devido a uma perfeita relação linear entre os efeitos de
idade, período e coorte. Na literatura, denomina-se este impasse como problema
de identificação na análise IPC. Por conseguinte, torna-se impossível separar
as estimativas dos efeitos de coorte, idade e período sem que sejam impostas
restrições adicionais aos coeficientes do modelo, isto é, além da centralização
ou da adoção de categorias de referência.
A partir desta limitação, iniciou-se nas ciências sociais e na epidemiologia um
intenso debate sobre qual seria a melhor restrição de identificação a ser
adotada nos modelos IPC. Mason et al. (1973) e Fienberg e Mason (1985) foram os
primeiros a propor uma solução a este problema. De acordo com os autores, uma
forma de tornar a matriz XTX invertível e, consequentemente, obter uma solução
única para os parâmetros seria impor uma restrição de igualdade no vetor de
coeficientes β. Dessa forma, bastaria admitir que os coeficientes do primeiro e
segundo períodos, ou da primeira e segunda coortes, ou do primeiro e segundo
grupos etários, por exemplo, fossem iguais.
Esta estratégia, contudo, mostrou-se sujeita a diversas fragilidades, as quais
foram apontadas pela literatura. A primeira delas se pautou na dificuldade de
separar os efeitos de idade, período e coorte por meio dos métodos
estatísticos. Glenn (1976), por exemplo, argumentou pela necessidade de que, na
aplicação do IPC, houvesse um esforço adicional para averiguar em que medida os
efeitos de idade, período e coorte seriam aditivos. Dito de outra forma, seria
necessário que o pesquisador se certificasse de que, por exemplo, os efeitos de
idade sejam constantes a cada período ou coorte. Esta questão é relevante na
medida em que os eventos históricos (período) podem afetar os indivíduos de
forma distinta ao longo do ciclo de vida (idade). De forma análoga, pode-se
suspeitar que os efeitos de idade podem não ser os mesmos entre várias coortes.
Outras críticas posteriores reforçaram o caráter ad hoc na restrição dos
coeficientes do modelo, a possibilidade de que sejam obtidos efeitos falsos
sobre o fenômeno ao se utilizar a proposta de Mason et al. (1973) e Fienberg e
Mason (1985), ou mesmo a necessidade de um conhecimento profundo substantivo
que forneça subsídios à correta identificação. Utilizando exercícios de
simulação, Rodgers (1982) mostrou que a adoção de diferentes estratégias de
identificação pode não resultar em estimativas verdadeiras dos efeitos de
idade, período e coorte. Sua principal contribuição foi argumentar, portanto,
que a solução proposta por Mason et al. (1973) pode impactar de forma
significativa as estimativas do modelo. Heckman e Robb (1985), por outro lado,
argumentam que informações adicionais devem ser utilizadas para superar o
problema de identificação, ou seja, os cientistas sociais deveriam aprimorar
seu conhecimento de variáveis intervenientes ou proxies dos efeitos de idade,
período e coorte. De uma perspectiva não tão crítica, Mason e Smith (1985)
propõem que uma regra plausível para a seleção das restrições seria utilizar
conhecimento a priori ou informações externas. Finalmente, a crítica feita por
Rodgers (1982) e Yang et al. (2008) é que todo e qualquer modelo exatamente
identificado a um conjunto de dados produzirá as mesmas medidas de qualidade de
ajuste do modelo e, portanto, este fato inviabiliza o uso de qualquer critério
para selecionar o modelo restrito com melhor ajuste.
A literatura recente que discute o problema da identificação recebeu
contribuições significativas da bioestatística e da epidemiologia.1 Em uma das
linhas deste ramo de estudo que utiliza funções estimáveis, insere-se a
abordagem baseada num novo estimador: o chamado estimador intrínseco,
introduzido por Fu, Knight e Fu; Fu, Hall e Rohan (apud YANG; FU; LAND, 2004).
Esse instrumento se assenta na decomposição do valor singular de matrizes e
provê estimadores robustos dos efeitos de idade, período e coorte. Como a
aplicação deste método é de interesse central neste artigo, sua formalização
será apresentada na próxima seção.
Por fim, uma contribuição importante para as estratégias de identificação no
arcabouço IPC foi dada por Winship e Harding (2008). Os autores basearam-se na
abordagem dos modelos causais ou estruturais proposta por Pearl (2000) e
desenvolveram uma metodologia na qual os mecanismos pelos quais a idade, o
período e a coorte afetam a variável resposta são de interesse central. O
teorema proposto pelos autores é que, para a identificação dos coeficientes no
modelo IPC, é apenas necessário que sejam especificadas todas as variáveis
intervenientes dos efeitos de idade, período e coorte, respectivamente. Por se
tratar de uma abordagem estrutural, os autores consideram que o modelo poderá
eventualmente estar sobreidentificado e, neste caso, deve-se testar o ajuste do
modelo global e de seus componentes.
O estimador intrínseco (EI)
Nesta seção formaliza-se a construção do estimador intrínseco, bem como suas
propriedades estatísticas, com base nos trabalhos de Yang, Fu e Land (2004),
Yang (2008) e Yang et al. (2008). Considerando-se a equação 3, que expressa o
modelo linear geral do modelo IPC, a dependência linear entre os efeitos de
idade, período e coorte pode ser representada na forma matricial da seguinte
maneira, a partir de um vetor B0 não nulo:
[/img/revistas/rbepop/v28n2/a07eq055.jpg]
A equação 5 é resultado do fato de que a matriz X é singular, isto é, existe
alguma combinação linear das colunas da matriz de design X que resulta em um
vetor nulo. Nos termos da Álgebra Linear, diz-se que a matriz X não possui
posto completo.
Kupper et al. (apud YANG; FU; LAND, 2004) demonstraram que, se uma matriz
possui posto menor que completo, seu espaço paramétrico pode ser decomposto na
soma direta de dois subespaços lineares que são perpendiculares entre si:
[/img/revistas/rbepop/v28n2/a07eq06.jpg]
Onde: ⊕ representa a soma direta dos dois subespaços lineares N e T, que são
perpendiculares entre si; N é o espaço nulo com uma dimensão de X medido pelo
vetor SB0 com um número real S; e T corresponde ao subespaço complementar
ortogonal a N. Devido a esta decomposição ortogonal do espaço paramétrico, cada
uma das infinitas soluções do modelo IPC irrestrito pode ser escrita como:
[/img/revistas/rbepop/v28n2/a07eq07.jpg]
Onde: S é um escalar que corresponde a uma solução específica para o problema
da identificação e B0 compreende um autovetor de norma euclidiana ou de tamanho
1. Yang, Fu e Land (2004) argumentam que este autovetor B0 independe das taxas
observadas Y e, portanto, é completamente determinado pelo número de grupos
etários e períodos, ou seja, B0 possui uma forma específica que é função tão
somente da matriz de design X.
Kupper et al. (apud YANG; FU; LAND, 2004) mostraram que B0 tem a seguinte
forma:
[/img/revistas/rbepop/v28n2/a07eq08.jpg]
A implicação direta da equação 8 é que B0 é o vetor normalizado de [/img/
revistas/rbepop/v28n2/a07tx01.jpg], o qual corresponde a:
[/img/revistas/rbepop/v28n2/a07eq09.jpg]
e i, p e c denotam, respectivamente, os grupos etários, períodos e coortes.
Yang, Fu e Land (2004) ressaltam que a grande importância da equação 9 é que o
vetor B0 é fixo, ou seja, é independente da variável-resposta Y e, portanto,
não possui nenhum papel na determinação dos coeficientes do modelo. Todavia,
quando alguma restrição é imposta ao vetor de coeficientes, tal como propõem
Fienberg e Mason (1985), então este princípio é violado na medida em que s, na
equação 6, assume um valor diferente de zero.
Portanto, é possível demonstrar que qualquer estimador do modelo IPC pode ser
descrito por uma restrição de identificação na matriz de design X, conforme a
equação 6, e B é o denominado estimador intrínseco que é ortogonal ao espaço
nulo, sendo determinado pela inversa generalizada de Moore-Penrose.
Yang et al. (2008) sugerem o seguinte algoritmo computacional para que se
obtenha o estimador intrínseco, com base na regressão por componentes
principais:
* obtenha os autovalores e os autovetores (componentes principais) da
matriz XTX;
* normalize os autovetores de forma que eles tenham tamanho 1;
* identifique o autovetor B0que corresponde ao único autovalor 0;
* estime uma regressão por componentes principais com variável-resposta Y e
a matriz de design U, sendo que esta última contém os vetores-coluna que
são os componentes principais determinados pelos autovalores não nulos;
* utilize uma matriz ortonormal de todos os autovetores para transformar os
coeficientes da regressão por componentes principais em coeficientes da
regressão do estimador intrínseco B.
Yang et al. (2008) alertam que, embora o estimador intrínseco possa ser
derivado de uma regressão por componentes principais, os coeficientes estimados
por este modelo não serão interpretáveis em termos da idade, período e coorte.
Portanto, torna-se necessária a transformação ortogonal destas estimativas.
Fu, Hall e Rohan (2004) e Yang, Fu e Land (2004) enunciam e demonstram
matematicamente algumas propriedades estatísticas do estimador intrínseco.2 A
primeira vantagem estatística do EI, segundo os autores, é que ele satisfaz a
condição para a estimação de funções lineares do vetor de parâmetros b. Este é
um dos fatores positivos das abordagens baseadas em funções estimáveis: são
invariantes em relação à qual solução para as equações normais for obtida.
Ademais, estas funções são desejáveis como estimadores estatísticos, na medida
em que são funções lineares do vetor de parâmetros não identificado que pode
ser estimado sem viés − em outras palavras, o EI fornece estimadores não
viesados dos efeitos de idade, período e coorte. Cabe mencionar que esta
condição, devidamente formalizada por Kupper et al. (apud YANG; FU; LAND,
2004), implica que qualquer estimador restrito, ou seja, aquele que é obtido
mediante a imposição de restrições de igualdade sobre o vetor de parâmetros,
sempre produzirá estimativas viesadas dos efeitos de idade, período e coorte.
Em resumo, a primeira propriedade estatística do EI é que ele produz
estimativas não viesadas dos coeficientes no arcabouço IPC para análise de
taxas populacionais, considerando-se número finito fixo de períodos p. A
propriedade assintótica do estimador intrínseco sugere que, à medida que o
número de períodos aumenta, p → ∞, a arbitrariedade dos múltiplos possíveis
estimadores por MLGR é removida e estes estimadores convergem para o estimador
intrínseco B (YANG, FU; LAND, 2004).
Em segundo lugar, foi demonstrado que o EI é mais eficiente do ponto de vista
estatístico − isto é, possui menor variância − do que qualquer estimador MLGR.
Em outras palavras, para qualquer número finito p de períodos de tempo, o
estimador intrínseco B tem uma variância menor do que qualquer estimador
restrito de MLGR. Ou seja, var([/img/revistas/rbepop/v28n2/a07tx02.jpg]) - var
(B) é uma função definida e positiva para uma não trivial restrição de
identificação no contexto do MLGR (YANG, FU; LAND 2004). Outra importante
propriedade do estimador intrínseco que foi provada é que ele é
assintoticamente consistente, isto é, quando p → ∞ ele converge para os
parâmetros verdadeiros que geram a sequência de taxas do IPC.
Uma limitação, contudo, presente nos estimadores por modelos lineares
generalizados restritos ainda persiste na solução EI. Foi dito na seção
anterior que todo e qualquer modelo exatamente identificado a um conjunto de
dados produzirá as mesmas medidas de qualidade de ajuste do modelo (RODGERS
1982, YANG et al., 2008). Dessa forma, o estimador intrínseco apresentará as
mesmas medidas de qualidade de ajuste, tais como a log-verossimilhança e a
deviance.Portanto, estas medidas não devem ser utilizadas para selecionar o
modelo correto (YANG et al., 2008).
Dados e métodos
Para este exercício, utilizaram-se os microdados da PNAD-IBGE, no período 1981
a 2008. Embora a PNAD não se constitua num painel verdadeiro, que acompanha os
indivíduos ao longo do tempo, sua análise no contexto do modelo IPC pode ser
viável, pois uma forma de se acompanhar cada coorte ao longo de repetidas
pesquisas é olhar para os membros dessa coorte que foram selecionados de forma
aleatória em cada ano (OLIVEIRA, 2002). Dessa forma, por exemplo, os indivíduos
que tinham sete anos em 1981 teriam oito anos em 1982, e assim por diante.
A faixa etária de estudo, neste artigo, corresponde dos 10 aos 29 anos, pois se
requer que, na análise da transição escolar de nosso interesse, os indivíduos
analisados estivessem expostos ao risco de realizar a progressão. Dessa forma,
têm-se 20 intervalos unitários de idade × 28 períodos. Como a série histórica
da PNAD possui três descontinuidades (1991, 1994 e 2000), utilizou-se uma
interpolação linear do número de promovidos e de indivíduos em risco nos anos
adjacentes, de forma a completar a série.
Para a estimação do modelo, a ligação canônica empregada foi a função
logística. A opção por esta forma funcional do modelo teve o objetivo de
garantir que as probabilidades de progressão por série preditas estivessem
inseridas no intervalo (0,1). O método de estimação utilizado foi o da máxima
verossimilhança.
Em relação à especificação do modelo, optou-se pela estimação do modelo idade-
período-coorte em sua forma completa, para verificar as diferenças entre as
metodologias EI e MLGR e avaliar a importância substantiva dos efeitos de
idade, período e coorte para a probabilidade de transição em cada uma das
séries. Sabe-se, contudo, que o procedimento ideal seria testar a importância
de cada uma das variáveis a partir de um modelo nulo e, então, incorporar uma a
uma as variáveis de idade, período e coorte e avaliar sua significância, por
meio da estatística deviance e do R2.
Outro procedimento importante na análise IPC não efetuado neste trabalho foi
testar a presença de efeitos interativos entre idade, período e coorte, ou
mesmo a necessidade de inclusão de termos quadráticos. Contudo, por ser este um
artigo direcionado para a comparação de metodologias, não se buscou
fundamentalmente um ajuste perfeito aos dados, mas sim verificar o potencial de
cada arcabouço para estimação de um modelo IPC em sua forma completa.
Para estimação do modelo com base no estimador intrínseco, foi utilizado o
algoritmo disponibilizado no STATA por Schulhofer-Wohl e Yang (2006). Estes
autores ressaltam que no algoritmo, para computar o estimador intrínseco, é
adotada a restrição de que a soma dos coeficientes seja igual a zero. Para fins
computacionais, são incluídas variáveis indicadoras para cada um dos valores
das variáveis idade, período e coorte na matriz de variáveis explicativas, mas
uma das categorias de cada uma delas é omitida. Após a regressão por
componentes principais, contudo, a restrição de que os parâmetros devem ter
soma zero permite que sejam obtidas as estimativas para as categorias omitidas
e, portanto, têm-se as estimativas para todas as categorias de idade, período e
coorte, o que não ocorre com o MLGR.
Para estimar o modelo linear generalizado restrito, empregou-se o algoritmo glm
também disponível no STATA (StataCorp 2007). A estratégia de identificação
consistiu em adotar a imposição de que as duas coortes mais antigas tivessem os
mesmos coeficientes em todas as transições escolares analisadas (ou seja, as
coortes de 1952 e 1953 seriam iguais). Considera-se que esta alternativa é
plausível, uma vez que pode se admitir que as duas coortes mais antigas não
tenham passado por um processo de mudança social tão significativo. Cabe
mencionar, ainda, que outras estratégias poderiam ser utilizadas, quais sejam:
igualar os dois últimos períodos, igualar as duas coortes mais recentes ou os
dois períodos mais recentes. Contudo, considerou-se que os períodos e coortes
mais recentes podem ter diferenças significativas em virtude das políticas
educacionais recentemente adotadas no Brasil. Não se cogitou aqui restringir os
parâmetros de idade, pois assumiu-se que o comportamento da progressão por
idade é singular e de interesse substantivo, uma vez que a variação nas
probabilidades de progressão por idade numa determinada série reflete o crônico
padrão brasileiro de distorção idade-série.
Resultados
Passa-se, neste momento, para a comparação dos resultados dos modelos idade-
período-coorte estimados para a probabilidade de progressão das mulheres
brasileiras para a 5ª série do ensino fundamental, segundo o estimador
intrínseco e os modelos lineares generalizados restritos (com a suposição de
que as duas coortes mais antigas fossem iguais). Antes de realizar a análise,
cabe ressaltar que a interpretação aqui pode ser feita sem qualquer prejuízo,
tomando-se como base os coeficientes estimados como medida para o comportamento
das probabilidades de progressão por série. Isto porque as probabilidades de
progressão preditas pelo modelo podem ser obtidas diretamente pelo exponencial
dos coeficientes, tanto no modelo linear generalizado restrito quanto naquele
baseado no estimador intrínseco. Dessa forma, a interpretação do comportamento
dos coeficientes estimados é similar à interpretação do comportamento das
probabilidades de progressão por série, já que a segunda é uma transformação
uma-a-uma da primeira.
Vale relembrar ainda que, tal como explicitado anteriormente, os dois modelos
possuem as mesmas medidas de qualidade do ajuste (deviance, AIC, BIC e log-
verossimilhança), sendo, portanto, inviável a utilização destes critérios na
seleção do melhor modelo. Os valores dos coeficientes estimados, bem como as
estatísticas de qualidade do ajuste dos dois modelos, estão reportados na
Tabela_1 do Anexo.
O Gráfico_1 mostra os coeficientes estimados pelos modelos EI e MLGR para o
modelo IPC da probabilidade de progressão para a 5ª série do ensino fundamental
das mulheres. Mediante a análise gráfica, busca-se verificar em que medida as
estimativas dos parâmetros derivadas de cada método são discrepantes. Antes,
contudo, de dar prosseguimento à análise dos gráficos, cabe mencionar que, na
estimação do modelo, o EI utiliza a restrição de que a soma dos coeficientes de
idade, período e coorte seja igual a zero. Por sua vez, o MLGR utiliza a
restrição de omitir uma categoria de referência, no caso a primeira categoria
de idade, período e coorte. Diante disso, para manter a comparabilidade entre
os coeficientes dos dois modelos, os parâmetros do modelo MLGR foram
centralizados em torno da média dos coeficientes de idade, período e coorte.
Este procedimento é conhecido como effect coding e, a partir dele, o intercepto
é igual à média global e o intercepto para cada variável expressa a diferença
entre o grupo e a média global (HOSMER; LEMESHOW, 2000).
[/img/revistas/rbepop/v28n2/a07graf01.jpg]
Comparando-se os coeficientes estimados para a probabilidade de progressão para
a 5ª série, é possível verificar que, no caso das mulheres, os efeitos de idade
apresentaram pouca diferença entre os métodos, enquanto os efeitos de período e
coorte mostraram magnitudes bastante distintas (Gráfico_1). A análise
substantiva do comportamento dos coeficientes de idade, período e coorte é
capaz de revelar características interessantes sobre as variações nas taxas
observadas. Verifica-se, num primeiro momento, que a probabilidade de
progressão para a 5ª série é muito baixa aos 11 anos, elevando-se, a partir
daí, de forma acelerada até aproximadamente os 19 anos de idade, quando então
se estabiliza (Gráfico_1). Este padrão por idade das probabilidades de
progressão é coerente com o elevado padrão de defasagem idade-série no Brasil,
decorrente do fato de que os indivíduos tendem a não concluir a 5ª série do
ensino fundamental na idade adequada (RIOS-NETO et al., 2010). Os efeitos de
período obtidos pelo estimador intrínseco e modelo linear generalizado restrito
apontam para uma elevação na probabilidade de progressão das mulheres para a 5ª
série do ensino fundamental, comportamento este coerente com a expansão desse
nível de ensino ocorrida no Brasil (Gráfico_1). Já os efeitos de coorte possuem
comportamento parabólico para as coortes nascidas entre 1952 e 1997, com um
pico para a importância deste efeito para as coortes nascidas na década de 1980
(Gráfico_1).
Uma explicação plausível para o comportamento parabólico dos efeitos de coorte
sobre a probabilidade de progressão para a 5ª série é o aumento expressivo das
taxas de matrícula para as coortes assinaladas. Oliveira (2007) mostra que,
antes da década de 1960, as taxas de matrícula no ensino fundamental como um
todo eram bastante baixas. Contudo, no período da ditadura militar, o número de
matriculados cresceu a uma taxa média de 3,9% ao ano, e depois desacelerou
entre 1985 e 1999. Dessa forma, embora o aumento de número de matrículas possa
estar associado a efeitos de período (políticas educacionais), pode-se
especular que tal crescimento vertiginoso na década de 1980 esteja também
relacionado às características sociais peculiares destas coortes.
Agora passa-se à análise da eficiência dos dois métodos. Como visto
anteriormente, foi demonstrado matematicamente que o EI possui menor variância
do que qualquer estimador MLGR, isto é, qualquer estimador MLGR obtido por
quaisquer restrições de identificação. Para investigar esta assertiva no estudo
das probabilidades de progressão das mulheres para a 5ª série do ensino
fundamental, construímos gráficos que mostram o comportamento dos coeficientes
estimados por EI e pelo MLGR com seus respectivos intervalos de confiança a um
nível de 95%.
É possível depreender pelos Gráficos_2, 3 e 4 que, de fato, o estimador
intrínseco é mais eficiente ' isto é, possui menor variância − do que o MLGR,
para os efeitos de idade, período e coorte. Analisando os gráficos para os
efeitos de idade, verifica-se que o estimador intrínseco possui uma excelente
eficiência em relação ao MLGR. A variância do EI, contudo, aumenta quando os
coeficientes para período ou coorte não são significativos, mas ainda assim
este estimador possui de fato uma menor variância que o MLGR.
[/img/revistas/rbepop/v28n2/a07graf02.jpg]
[/img/revistas/rbepop/v28n2/a07graf03.jpg]
[/img/revistas/rbepop/v28n2/a07graf04.jpg]
Cabe ressaltar que a utilização de parâmetros com baixa variância no modelo IPC
é muito importante e desejável para a construção de projeções educacionais
aleatórias com base na PPS e nos modelos IPC. Isto porque uma forma de se
obterem estimativas futuras das probabilidades de progressão por série, que
incluam uma margem de erro (por exemplo, intervalo de confiança), é extrapolar
a tendência observada no erro-padrão. Dessa maneira, ter-se-ia uma medida da
aleatoriedade nas projeções educacionais. Portanto, se dispomos de estimativas
cujo erro-padrão é menor, então a extrapolação desta medida tenderá a ser mais
eficiente do que outra cujo erro-padrão é mais elevado.
Considerações finais
Os modelos idade-período-coorte possuem uma forte tradição na Demografia. Neste
artigo, com a análise IPC, buscou-se investigar as diferentes fontes de
variação na probabilidade de progressão para a 5ª série do ensino fundamental
das mulheres brasileiras.
Este artigo possui, contudo, um forte caráter metodológico. Procurou-se
comparar duas metodologias, sendo a primeira delas usual na literatura
demográfica, baseada nos trabalhos de Fienberg e Mason (1985), a qual
denominamos de solução por modelos lineares generalizados restritos (MLGR), e
uma metodologia recente que emergiu de avanços na epidemiologia, o chamado
estimador intrínseco (EI). Argumentou-se que a solução baseada no EI busca
solucionar um grande impasse no que concerne ao problema da identificação no
arcabouço IPC. A grande inovação deste estimador é que, a partir da
decomposição do espaço paramétrico do modelo IPC irrestrito (ou seja, aquele
não identificado), este estimador especial B pode ser derivado tanto pelo
método de projeção quanto pelo método de regressão por componentes principais.
Ademais, outra singularidade deste estimador é que a única restrição necessária
baseia-se na orientação do estimador no espaço paramétrico, a qual depende
fundamentalmente de uma matriz de design X fixa, isto é, do número de períodos
e grupos de idade.
Foi visto também que o estimador intrínseco apresenta, segundo a literatura,
excelentes propriedades estatísticas. Em grande medida, as evidências empíricas
deste artigo corroboram com esta assertiva. Além de apresentar parâmetros
estimados condizentes com a evolução histórica das políticas educacionais no
Brasil e de convergir para os valores verdadeiros dos parâmetros em grandes
amostras, este estimador é mais eficiente do que aqueles baseados nos modelos
lineares generalizados restritos (MLGR). Por sua vez, os estimadores por MLGR,
com a suposição de que os parâmetros das duas coortes mais antigas fossem
iguais, se mostraram na grande maioria das vezes não significativos e com
variância maior do que os EI.
Diante do exposto, argumenta-se que o estimador intrínseco apresenta-se de fato
como uma ferramenta poderosa na análise IPC. Por conseguinte, a construção de
projeções probabilísticas das PPSs, a partir deste modelo, se mostra bastante
promissora. Este é o próximo passo que pretendemos implementar em artigos
futuros. Para tanto, é necessário que se proceda com a construção passo-a-passo
do modelo IPC, com o teste da inclusão de cada uma das variáveis indicadoras de
idade, período e coorte, a comparação do ajuste dos modelos e o teste para
inclusão de variáveis interativas ou termos quadráticos. Este procedimento
permitirá que se obtenha o melhor modelo IPC para as séries de progressão
escolar.