Nas últimas semanas, reportagens noticiaram mudanças estruturais no ENEM 2025: pela primeira vez, o exame adotou o formato de testlets, ou seja, blocos de questões que compartilham um mesmo texto-base. Uma dessas matérias descreve a surpresa de muitos candidatos diante da novidade. Segundo o anúncio oficial, os itens foram pré-testados e a expectativa é expandir o uso desse modelo para outras áreas do exame. Além disso, há relatos de que um estudante chegou a prever a adoção de testlets com base em editais públicos reportagem recente, o que reacende o debate sobre transparência e clareza nas mudanças.
Com base na minha experiência de longa data em avaliação educacional (especialmente no desenvolvimento e aplicação de modelos adaptativos como o algoritmo CBAT-2 (2004)) decidi escrever este post para oferecer uma visão mais técnica sobre o que são os testlets quando associados à modelagem estatística.
A simples inserção de testlets em uma prova calculada pela TRI clássica não é suficiente; é fundamental enfatizar que a metodologia de modelagem deve ser diferente. Em estruturas de testlet, vários itens compartilham o mesmo texto-base, o que gera dependência residual entre as respostas e viola a suposição de independência local (um dos pilares da TRI tradicional). Quando essa dependência não é modelada adequadamente, como ocorre ao aplicar diretamente um modelo logístico de três parâmetros (ML3P), parte desse efeito compartilhado pode ser absorvida de forma indevida pelos parâmetros do item, inflando, por exemplo, a discriminação, distorcendo a dificuldade e reduzindo artificialmente o erro de medida. Assim, não se trata apenas de reorganizar itens em blocos ou de promover melhorias pedagógicas nos itens, mas de reconhecer que a própria lógica psicométrica do modelo é outra. Até o momento, não se sabe se a metodologia de cálculo da nota do ENEM foi efetivamente modificada.
Por isso, avaliações que utilizam testlets requerem uma metodologia específica, incluindo modelos que incorporam explicitamente o efeito do bloco, como a Testlet Response Theory (TRT), cujo modelo de resposta é diferente e capaz de capturar a estrutura hierárquica gerada pelo texto-base comum. O TRT introduz um fator latente adicional responsável por explicar a covariação residual entre itens de um mesmo testlet, preservando a validade, a comparabilidade e a precisão das estimativas. O que não se sabe, até o momento, é se o INEP está de fato adotando essa metodologia ou se apenas estruturou os itens em testlets enquanto continua utilizando a TRI tradicional. Essa incerteza é crucial, pois a abordagem estatística empregada afeta diretamente a interpretação das proficiências, a comparabilidade entre exames e a qualidade técnica da avaliação.
O conceito de testlet foi introduzido por Wainer e Kiely (1987) como “um grupo de itens relacionados a uma única área de conteúdo, desenvolvido como uma unidade e contendo um número fixo de caminhos predeterminados que o examinado pode seguir”. A motivação para o uso de testlets surge da necessidade de lidar com desafios clássicos na construção de testes, tais como efeitos de contexto, dependência local entre itens, ordenação dos itens e equilíbrio de conteúdo.
A Testlet Response Theory (TRT) ou Bloco de Resposta ao Item (interpretação minha), apresentada por Wainer, Bradlow e Wang (2007), é uma extensão da Teoria de Resposta ao Item (TRI). A TRI concebida de forma tradicional assume independência local entre os itens condicionada à habilidade latente do examinado (θ). Entretanto, itens que compartilham um mesmo traço latente e/ou habilidade e/ou proficiência violam essa suposição, estimulando o uso do TRT.
O TRT resolve esse problema introduzindo um fator latente adicional, o testlet effect, que modela a covariação residual entre os itens de um mesmo testlet. Assim, cada resposta passa a depender tanto da proficiência geral quanto de um efeito específico do testlet.
Por exemplo, no livro Testlet Response Theory and Its Applications (https://www.amazon.com/Testlet-Response-Theory-Its-Applications/dp/0521862728) (WAINER; BRADLOW; WANG, 2007), há o modelo clássico da TRT em sua versão de três parâmetros, no qual a probabilidade de acerto no item j pelo respondente i é dada por:
P(yij = 1) = cj + (1 − cj) · logit−1[ aj(θi − bj − γi d(j) ) ].
Nesse modelo, θi representa a proficiência geral do participante, enquanto aj, bj e cj são, respectivamente, os parâmetros de discriminação, dificuldade e pseudoacerto do item. O termo adicional γi d(j) corresponde ao efeito do testlet, isto é, ao impacto específico do bloco ao qual o item pertence.
Modelos TRT são frequentemente formulados em uma perspectiva hierárquica e estimados via métodos bayesianos, como MCMC, ou por métodos de máxima verossimilhança marginal (marginal likelihood). Esses modelos permitem medir com maior precisão em situações com dependência (estatística) local, sem comprometer a comparabilidade dos escores (notas).
Mas o que é um testlet?
Um testlet é um agrupamento de itens organizados sob um mesmo texto-base. Seguindo a estrutura utilizada pelo INEP em seus exames, um item de múltipla escolha é composto por: texto-base, enunciado, opções de resposta, gabarito e parâmetros (estatísticos) do item.
Em um testlet, o texto-base é compartilhado por um bloco de enunciados. Em suma, as “questões” utilizam o mesmo texto-base, como um artigo, um trecho literário, uma reportagem ou qualquer outra fonte contextualizadora. Do ponto de vista pedagógico, a partir de um único contexto é possível explorar diferentes habilidades e/ou proficiências. Uma vantagem é que o participante, por exemplo em avaliações como o ENEM, precisa ler o texto-base (frequentemente longo) apenas uma vez, o que pode reduzir a fadiga.
- representar competências complexas em contextos realistas;
- reduzir a fadiga do respondente ao agrupar itens sob um mesmo estímulo;
- melhorar a validade de conteúdo;
- controlar melhor a estrutura e o equilíbrio do teste;
- mitigar a dependência local por meio de modelagem TRT;
- favorecer a comparabilidade entre indivíduos com níveis semelhantes de proficiência.
Apesar das vantagens, algumas limitações e cuidados devem ser considerados:
- blocos muito longos podem gerar dependência estatística local excessiva;
- a construção de testlets exige maior esforço editorial e psicométrico;
- modelos TRT demandam amostras maiores e maior complexidade computacional;
- testlets mal balanceados podem introduzir vieses de dificuldade.
Relação entre testlets e Testes Adaptativos
Em Testes Adaptativos Computadorizados (CAT) (Piton-Gonçalves, 2012), a seleção de itens é realizada automaticamente com base nas respostas anteriores em provas computadorizadas. Ao utilizar testlets (Piton-Gonçalves, 2024) como unidade de seleção vários desses problemas são minimizados. Dois benefícios principais se destacam:
- Controle: é possível garantir equilíbrio de conteúdo dentro do testlet (within-testlet) e entre testlets (between-testlet).
- Justiça: examinados com níveis semelhantes de proficiência recebem testlets equivalentes, assegurando maior comparabilidade de escores.
Além disso, a seleção por blocos reduz a volatilidade do algoritmo adaptativo e simplifica o processo de montagem das avaliações.
Quanto ao balanceamento de conteúdo no TRT, essa questão vem sendo investigada há anos na área de CAT. Em 2004 trabalhei com o algoritmo CBAT-2, culminando em resultados apresentados em Piton-Gonçalves (2004) e Piton-Gonçalves et al. (2004).
Referências
- PITON-GONÇALVES, J. Desafios e perspectivas da implementação computacional de testes adaptativos multidimensionais para avaliações educacionais. 2012. Tese (Doutorado em Ciências) – Universidade de São Paulo, São Paulo, 2012.
- PITON-GONÇALVES, J.; ALUÍSIO, S. M. Proposta de um esquema de anotação para os itens de testes adaptativos informatizados baseados no CBAT2. In: ENCONTRO DE LINGUÍSTICA DE CORPUS – ELC, 11., 2012, São Carlos. Anais do XI Encontro de Linguística de Corpus, 2012.
- PITON-GONÇALVES, J.; ALUÍSIO, S. M. Teste adaptativo computadorizado multidimensional com propósitos educacionais: princípios e métodos. Ensaio: Avaliação e Políticas Públicas em Educação, v. 23, p. 389–414, 2015.
- PITON-GONÇALVES, J.; ALUÍSIO, S. M. An architecture for multidimensional computer adaptive test with educational purposes. In: BRAZILIAN SYMPOSIUM ON MULTIMEDIA AND THE WEB (WEBMEDIA), 18., 2012, São Paulo. Proceedings of the 18th Brazilian Symposium on Multimedia and the Web – WebMedia '12. New York: ACM Press, 2012. p. 17–24.
- PITON-GONÇALVES, J. Testes adaptativos para o Enade: uma aplicação metodológica. Meta: Avaliação, v. 12, p. 665–688, 2020.
- TABAK, G. C.; PITON-GONÇALVES, J.; RICARTE, T. A. M.; CURI, M. Teste adaptativo multiestágio para o ENEM. Revista Brasileira de Informática na Educação (RBIE), v. 31, p. 60–86, 2023.
- WAINER, H.; BRADLOW, E. T.; WANG, X. Testlet Response Theory and Its Applications. Cambridge: Cambridge University Press, 2007.
- WAINER, H.; KIELY, G. L. Item clusters and computerized adaptive testing: a case for testlets. Journal of Educational Measurement, 1987.
