2 de fev. de 202131 min de leitura

Declaração de conferência de consenso da AACN sobre a classificação uniforme de escore de teste

(Tradução livre, envie-me um e-mail caso tenha sugestões de melhorias)

Última edição em 01mar2021

Objetivos: As classificações descritivas dos escores dos testes de desempenho são um componente crítico na comunicação dos resultados das avaliações neuropsicológicas e psicológicas. No entanto, não existe um sistema mundialmente aceito para atribuir descritores qualitativos a pontuações em faixas específicas. Além disso, a definição e o uso do termo "prejuízo" carecem de especificidade e consenso. Consequentemente, as classificações de pontuação de teste e a definição de prejuízo são inconsistentemente aplicados pelos clínicos, criando confusão entre os consumidores de serviços neuropsicológicos, incluindo os solicitantes, os estagiários, os colegas e o sistema judiciário. Para minimizar essa confusão, especialistas em avaliação neuropsicológica e psicológica clínica e forense se reuniram em uma conferência de consenso na Reunião Anual da Academia Americana de Neuropsicologia Clínica - AACN - American Academy of Clinical Neuropsychology - de 2018. Os objetivos da conferência de consenso foram recomendar (1) um sistema de classificações qualitativas para descrever resultados de testes baseados em desempenho com distribuições normais e não normais e (2) uma definição de prejuízo e sua utilização nas decisões de casos individuais.

Resultados: As metas da conferência de consenso foram cumpridas, resultando em recomendações específicas para o emprego de classificações uniformes para os testes de desempenho e para a definição de prejuízo, que estão descritas neste artigo. Além da declaração de consenso, está incluída uma descrição do processo de conferência e das justificativas para essas recomendações.

Conclusões/Importância: Esta conferência de consenso é a primeira tentativa formal da comunidade neuropsicológica profissional de fazer recomendações para as classificações uniformes de pontuação de teste de desempenho e avançar em uma definição consistente de prejuízo. O uso de descritores e termos uniformes reduzirá a confusão e aumentará a compreensão dos relatórios pelos nossos clientes, bem como por nossos estagiários e colegas.

Palavras-chave: prejuízo; teste de desempenho; descritores qualitativos; classificação dos escores

Declaração do problema

O método mais comum de descrever o desempenho do escore de teste em relatórios neuropsicológicos clínicos e forenses é pelo uso de descritores qualitativos (Guilmette, Hagan, & Giuliano, 2008), como classificações médias, acima da média, superiores e deficitárias, que são geralmente consideradas como mais significativas e compreensíveis na comunicação dos resultados do que as pontuações brutas, os escores padrão ou as classificações de percentil. Considerando que vários sistemas de classificações foram propostos (por exemplo: Groth-Marnat, 2009; Heaton, Grant, & Matthews, 1991; Schoenberg & Rum, 2017; Schretlen, Testa, & Pearlson, 2010; Wechsler, 2009, 2014), não existe consenso ou um sistema mundialmente aceito para atribuir descritores ou classificações qualitativas para testes baseados em desempenho.

Vinte e cinco anos atrás, em seu discurso presidencial à Divisão 22 (Psicologia da Reabilitação) da Associação Americana de Psicologia - APA - American Psychological Association, Bruce Caplan identificou o problema afirmando que "Termos como 'moderadamente prejudicado' e 'dentro dos limites normais' frequentemente carecem de referências quantitativas e, portanto, estão sujeitos a interpretações diferentes entre indivíduos e contextos" (1995, p. 236). A preocupação de Caplan surgiu de um estudo realizado por ele em que solicitou aos participantes de uma "grande organização neuropsicológica" que atribuíssem uma classificação descritiva a cada uma das 22 possíveis avaliações de quatro pacientes hipotéticos. Ele encontrou uma considerável inconsistência entre as taxas. Caplan ainda opinou que "Para aumentar nossa credibilidade, especialmente em contextos forenses onde diferentes clínicos podem fornecer diferentes interpretações de pontuações para testes idênticos, precisamos de pesquisa e discussão para haver algum consenso sobre no que implicam várias classificações descritivas" (p. 239). Da mesma forma, Hebben e Milberg (2002) em suas revisões da interpretação do teste neuropsicológico também concluíram: "Classificações como 'médio' ou 'abaixo da média' não são precisas e podem se referir a diferentes faixas de pontuação, dependendo do clínico."

Em uma pesquisa com neuropsicólogos certificados pelo conselho, Guilmette et al. (2008) pediram aos entrevistados que atribuíssem uma classificação descritiva a 12 escores padrão diferentes, de 50 a 130, provenientes de um teste de memória de um breve caso. O número médio de diferentes classificações descritivas atribuídas pelos 110 participantes da pesquisa a cada uma das 12 pontuações padrão foi de 14, com intervalo de 9 a 23. Este resultado forneceu novamente evidências empíricas da variabilidade significativa e da falta de uniformidade na atribuição de descritores qualitativos a pontuações padrão específicas. É importante ressaltar que Guilmette e seus colegas também encontraram variância de atribuição de classificações relacionada a diferentes métodos ou padrões interpretativos. Alguns entrevistados se basearam em descritores comparativos normativos ou interindividuais (por exemplo: superiores, médios, abaixo/acima da média, inferiores), em prejuízos ou em comparações intraindividuais que descrevem normalidade ou anormalidade baseadas em algum histórico pré-mórbido estimado (por exemplo: normal, sem prejuízo, comprometido), ou em comparações intraindividuais sobre a expectativa de um escore baseado em outros fatores como o QI que foram incluídos no contexto do caso (por exemplo: abaixo/acima das expectativas). Dada a falta de confiabilidade na aplicação de descritores de teste de desempenho, Guilmette et al. sugeriram que "a psicologia clínica e neuropsicológica profissional se esforça para articular recomendações específicas ou adotar padrões explícitos que estabeleçam terminologia bem definida e atribuição mais consistente de descrições qualitativas por faixas de pontuação de teste" (2008, p. 136).

Somando-se à confusão para os clínicos ao decidir quais classificações de pontuação de teste aplicar, os editores de testes são inconsistentes em suas recomendações para as classificações das pontuações em seus exames. Como estagiários e clínicos praticantes estão bem cientes, diferentes manuais de teste podem recomendar diferentes classificações qualitativas para as mesmas pontuações padrão. Por exemplo, os manuais de inteligência e teste de memória do Wechsler listam descritores qualitativos para suas pontuações padrão e a maioria dos profissionais aplica esses descritores ao descrever o desempenho nessas escalas. No entanto, o descritor qualitativo do sistema Wechsler para uma pontuação padronizada específica nem sempre é o mesmo descritor recomendado para a mesma pontuação em um teste diferente. Considere um escore padrão de 75, que seria definido como "limítrofe" pelos testes para adultos de Wechsler; "muito baixo" pelo Wide Range Achievement Test-5 (Wilkinson & Robertson, 2007) e pela Escala de Inteligência Wechsler para Crianças-5 (Wechsler, 2014); "muito abaixo da média" pelo Procedimento de Avaliação Neuropsicológica De Kaufman (Kaufman & Kaufman, 1994); "baixo" pelo Woodcock-Johnson IV (Schrank, McGrew, & Mather, 2014); "fraco" pelo Teste de Inteligência Não Verbal-3 (Brown, Sherbenou, & Johnsen, 1997), e "abaixo da média para levemente prejudicado" pelo Sistema de Pontuação Qualitativa de Boston para a Figura Complexa de Rey-Osterrieth (Stern et al., 1999). Consequentemente, o clínico está propenso a atribuir classificações diferentes a mesma pontuação padrão de diferentes testes para aderir às recomendações do editor dos testes. Embora os desvios das recomendações dos manuais de diferentes testes possam ser bastante justificáveis, tais desvios podem tornar as interpretações clínicas vulneráveis a ataques em contextos litigiosos. Essas inconsistências em um relatório podem ser confusas tanto para os pacientes quanto para os solicitantes, bem como para os estagiários que tentam entender as complexidades da interpretação do escore do teste.

Da mesma forma, a identificação de uma faixa de escore de teste "prejudicada" tem sido tratada de forma inconsistente por pesquisadores e clínicos, com pontos de cortes variadamente aplicados a escores a partir de um desvio padrão; 1,5 desvios padrão; ou dois desvios padrão abaixo das expectativas normativas (Beauchamp et al., 2015; Heaton et al., 1991; Ingraham & Aiken, 1996; Meyer, Boscardin, Kwasa, & Price, 2013; Schoenberg et al., 2018). Na pesquisa de Guilmette et al. (2008) observada anteriormente, o termo "prejudicado" foi utilizado por alguns entrevistados como uma classificação descritiva a partir de uma pontuação padrão de até 95. Não surpreendentemente, o termo comprometimento (juntamente com outros termos como deficitário, anormal e deficiente) foi aplicado com frequência crescente à medida que os escores padrão diminuíam.

Ao classificar os escores como prejudicados, também ocorreu discordância em relação às classificações que identificam grau de desempenho anormal, às vezes começando com um termo que transmite incerteza (por exemplo: limítrofe) antes de passar a utilizar classificações que transmitem maior certeza (por exemplo: leve, moderada e grave) para escores que presumivelmente se desviam em maior extensão das expectativas normativas. No entanto, esses modificadores também não têm qualquer definição de consenso. Em cada um desses casos, o uso de termos destinados a transmitir anormalidade ou "prejuízo" tem sido baseado puramente em um escore de teste, desviando-se das expectativas normativas. Esse hábito na prática pode ser considerado como "limite de teste", uma abordagem concreta inadequada que considera cada escore de teste específico como tendo significado clínico inerente, sem considerar o perfil geral do resultado do teste e o contexto de vida do examinando em particular. Tal abordagem não é vista como um método aceitável de chegar a conclusões clínicas.

A falta de consistência na aplicação de classificações de pontuação de teste e de uma definição do termo “prejuízo/comprometimento” prejudica a prática profissional da neuropsicologia clínica. Apesar de ser uma questão de décadas, ainda não foi adequadamente abordada por nossas organizações profissionais. Para isso, a Academia Americana de Neuropsicologia Clínica (AACN) estabeleceu uma conferência de consenso para propor um conjunto consistente de descritores qualitativos e definir o “prejuízo” com o objetivo de orientar os clínicos e facilitar o aumento da consistência na aplicação desses termos.

Desenvolvimento da conferência de consenso

A criação desta conferência de consenso começou em fevereiro de 2014, quando o Conselho Administrativo da AACN (Board of Directors – BOD) aprovou uma proposta iniciada por Manfred Greiffenstein, com a ajuda de Thomas Guilmette, de formação de um grupo de trabalho para criar um documento de orientação sobre a classificação uniforme de pontuações de teste. O Conselho delegou a Greiffenstein e Guilmette a seleção de membros para o grupo de trabalho; o desenvolvimento de questões-chave da pesquisa; a organização, a análise e a coleta de dados da pesquisa entre os membros e a redação de um documento de orientação. Os copresidentes do grupo de trabalho pediram a 13 experientes neuropsicólogos/psicólogos que representaram pesquisadores, clínicos e formadores de opinião a participarem dessa empreitada com a reserva de que cada membro poderia concordar que (a) as diretrizes de classificação eram necessárias, (b) o nível de desempenho e interpretação de pontuação precisavam ser distinguidos, e, em última análise, que (c) a interpretação de pontuação deve ser sempre contextualizada. Os membros originais deste grupo de trabalho eram: Corwin Boake, Bruce Caplan, Robert Denney, Jacobus Donders, Anthony Giuliano, Leigh Hagan, Bernice Marcopulos, Ann Marcotte, Scott Millis, Neil Pliskin, Kirk Stucky, Joseph Snow e Keith Owen Yeates.

Uma série de pesquisas on-line e sugestões foram distribuídas entre os membros do grupo de trabalho com posterior comunicação e discussão, ocorrendo por e-mail. O objetivo não era um consenso, mas sim encontrar uma opinião majoritária sobre descritores para escores de teste com distribuições normais e distribuições não normais, bem como uma definição de prejuízo. O progresso foi lento e incompleto, mas um rascunho preliminar do documento de orientação foi escrito por Greiffenstein e Guilmette e encaminhado ao Comitê de Publicações da AACN para revisão em junho de 2016. No entanto, os trabalhos no projeto cessaram após a morte de Manfred Greiffenstein em agosto de 2016.

Guilmette consultou o presidente do Comitê de Publicações da AACN, Jerry Sweet, que sugeriu que o conteúdo do rascunho do documento de orientação provavelmente não seria instrutivo para os clínicos, e particularmente dada a importância desta questão, uma conferência de consenso seria o meio mais apropriado para avançar no uso de classificações uniformes de testes de desempenho. Guilmette e Sweet abordaram o Conselho Administrativo da AACN com uma proposta de conferência de consenso formatada após a conferência de consenso da AACN sobre a avaliação neuropsicológica, viés de resposta e simulação de doença (Heilbronner et al., 2009). A AACN BOD aprovou a proposta em sua reunião anual em junho de 2017. A conferência de consenso foi planejada para ocorrer durante um dia inteiro na reunião anual de 2018 em San Diego. A AACN BOD também aprovou o convite a aproximadamente 25 participantes, com relevante expertise e experiência, na conferência e esses seriam convidados pelos copresidentes, Guilmette e Sweet, para propor classificações para as pontuações normalmente distribuídas, as pontuações não normalmente distribuídas, e para definir o prejuízo, assim como o seu uso e aplicação. Todos os potenciais membros da conferência também precisariam concordar com as três condições estabelecidas por Greiffenstein e Guilmette para a sua proposta de documento de orientação acima mencionado. Após a conferência de consenso, uma apresentação de 90 minutos ou "fórum público" seria realizada e aberta a todos os participantes da conferência da AACN. O fórum público incluiria a apresentação das recomendações da conferência de consenso e obteria um parecer crítico dos participantes. Uma declaração de conferência de consenso, resumindo os resultados e recomendações, seria então submetida para publicação na revista oficial da AACN, The Clinical Neuropsychologist (O Neuropsicólogo Clínico).

Os organizadores da conferência identificaram 28 especialistas do Canadá e dos Estados Unidos que representaram a diversidade entre gênero, foco adulto/criança, cultura e ambiente de trabalho para participar da conferência. Cinco especialistas interessados em participar desse processo não estavam disponíveis para participar da conferência, e como alternativa concordaram em fornecer revisões da declaração de consenso antes da publicação, embora apenas dois pudessem revisar o manuscrito. Os demais membros da conferência foram divididos, considerando as preferências e a diversidade, em três grupos de trabalho que buscariam consenso sobre as classificações de escore de teste para os normalmente distribuídos; os não normalmente distribuídos; e a definição de prejuízo, assim como a sua utilização. Copresidentes do grupo de trabalho foram identificados, refletindo novamente sobre o equilíbrio entre os gêneros e os focos adultos versus crianças. As leituras e referências pré-conferência foram selecionadas pelos organizadores e, através de sugestões, pelos próprios membros da conferência, e foram distribuídas a todos os participantes. Os materiais de recursos incluíam artigos científicos ou acadêmicos e capítulos de livros (listados no apêndice abaixo) bem como outras propostas informais de classificação de escore de teste, incluindo as do grupo de trabalho inicial de classificação Greiffenstein e Guilmette, e uma breve versão da Classificação Internacional de Funcionamento da Organização Mundial da Saúde.

Processo de criação de consenso e a redação da declaração de consenso

Os participantes da conferência se reuniram em 20 de junho de 2018, um dia antes da Reunião Anual da Academia Americana de Neuropsicologia Clínica em San Diego. Dos 25 membros que estavam agendados para se reunir, três, não puderam comparecer, mas concordaram em rever a declaração de consenso antes da publicação, resultando em um total de 22 participantes de 17 estados dos EUA, Distrito de Columbia e Canadá. Após uma breve visão geral da história e dos objetivos da conferência, os participantes se reuniram em seus grupos de trabalho e iniciaram a discussão. O restante do dia alternou entre os descansos do grupo de trabalho e a discussão geral do grupo na tentativa de chegar a um consenso nos três domínios. Todo o grupo chegou a um consenso sobre uma série de pontos específicos nas três áreas de trabalho. Os copresidentes resumiram suas descobertas e recomendações em uma apresentação aos participantes da conferência da AACN durante um fórum público de 90 minutos em 22 de junho de 2018, durante o qual foram solicitados feedbacks e críticas.

Para incentivar a transparência e a abertura às opiniões dos membros da AACN em geral, a apresentação do PowerPoint da reunião de 22 de junho de 2018 foi distribuída através do listserv da AACN, solicitando comentários, recomendações, críticas e perguntas de 11 de julho a 28 de julho de 2018. Os comentários e análises recebidos da listserv resultaram em discussão e consideração em e-mail adicional entre os 22 participantes da conferência de consenso. Essencialmente, todas as recomendações iniciais de consenso que saíram da conferência de 20 de junho de 2018 foram reconsideradas.

A importante discussão on-line e a consideração de múltiplas alternativas levaram ao reconhecimento de que os pontos iniciais do consenso, já alcançados durante a reunião de junho, haviam evoluído, levando à necessidade de restabelecer o consenso. Copresidentes do grupo de trabalho e copresidentes da conferência trabalharam com cada grupo, com pontos de consenso revisados para consideração final. Finalmente, foi obtido um consenso para os três tópicos: classificações de escore para testes com distribuições não normais em 13 de dezembro de 2018, para definição e aplicação de prejuízos em 1º de fevereiro de 2019, e para classificações de escore para testes com distribuições normais em 2 de maio de 2019.

Um resumo do processo de consenso e suas recomendações foi escrito e revisado por todos os 22 participantes da conferência e também foi revisado por especialistas externos, resultando nesta declaração de conferência de consenso. A declaração de consenso reflete a expertise combinada de 27 neuropsicólogos/psicólogos, que consideraram literatura científica, perspectivas históricas e fatores clínicos, bem como extensa contribuição de muitos membros da AACN. Esta contribuição e revisão também incluiu o Comitê de Publicação da AACN e a aprovação final pelo Conselho Administrativo da AACN.

As recomendações contidas nesta declaração não devem ser consideradas normas de prática obrigatórias. Em vez disso, refletem orientação consensual de especialistas ou "melhores práticas" que os clínicos podem considerar incorporar em seu trabalho para obter maior uniformidade e consistência na aplicação de classificações de escore de teste ou descritores e o uso do termo prejuízo. Para ser muito claro, esta afirmação não se destina a instruir ou limitar os clínicos na sua interpretação dos dados de testes neuropsicológicos. A análise integrativa de um perfil de teste neuropsicológico baseia-se unicamente no julgamento individual de clínicos e sua apreciação e expertise na sintetização de informações de múltiplas fontes médicas, históricas, culturais, comportamentais, dentre outras para chegar a formulações clínicas, impressões e diagnósticos.

Recomendações do consenso para classificações de testes com distribuições normais

O grupo de trabalho de distribuição normal, inicialmente se baseou nos seguintes conceitos para orientar suas deliberações:

· A interpretação dos escores é diferente da classificação dos escores.

· Os escores não podem ser "prejudicados", apenas uma função pode ser prejudicada.

· A simplicidade dos descritores pode melhorar a comunicação.

· Os descritores devem se basear na frequência ou na semelhança do desempenho, não na patologia.

Ao considerar a melhor maneira de fundamentar as classificações para os escores, modelos de 5 categorias e de 7 categorias foram revisados pelos seus valores relativos. O modelo de 5 categorias teria classificações atribuídas a pontuações em cada desvio padrão. Por exemplo, ±1 desvio padrão seria englobado sob uma classificação, média, com outras classificações atribuídas para cada desvio padrão adicional acima e abaixo da média até três desvios padrão, produzindo cinco classificações de escore de teste no geral. As principais vantagens dessa abordagem seriam que as classificações mapeiam facilmente os desvios padrão e há simplicidade em ter relativamente poucas classificações a considerar. No entanto, esse modelo diverge significativamente das práticas clínicas comuns, tornando menos provável a adoção por profissionais. Além disso, a faixa média se estenderia por dois desvios padrão que abrangem cerca de 68% da distribuição. Em contrapartida, quando os escores padrão, entre 90 e 109, são categorizados como médios, cerca de 50% da distribuição se enquadra nessa faixa, o que é consistente com a maioria dos sistemas descritivos (Groth-Marnat, 2009; Schoenberg & Rum, 2017; Schretlen et al., 2010; Wechsler, 2009). Sendo assim, foi adotado o modelo de 7 categorias derivado do sistema Wechsler. Este modelo tem mais relevância clínica, com melhores gradações que não estão ligadas a unidades completas de desvio padrão. Além disso, esse modelo foi considerado mais próximo das práticas clínicas atuais e, portanto, provavelmente mais fácil para os profissionais o incorporarem em suas práticas.

Em conformidade com grupo de consenso, as classificações específicas atribuídas a várias faixas de pontuação foram discutidas detalhadamente durante a sessão de feedback com os participantes da conferência da AACN e, posteriormente, entre os membros da lista da AACN que ofereceram comentários e sugestões. Havia uma forte crença de que as classificações de escore de teste deveriam estar livres de termos que pareçam críticos, tendenciosos ou seriam vistos como representando uma conclusão clínica e, ao invés disso, deveriam refletir apenas uma posição da pontuação dentro da distribuição normal. Especificamente, a intenção era que as classificações de escore não parecessem transmitir um processo separado de interpretação do clínico, que é o passo necessário na conceituação do prejuízo ou déficit.

As classificações iniciais de escore de teste recomendadas pela conferência de consenso foram as seguintes: pontuação extremamente alta (≥130); pontuação alta (120-129); pontuação acima da média (110-119); pontuação média (90-109); pontuação abaixo da média (80-89); pontuação baixa (70-79); e pontuação extremamente baixa (<70). Surgiram algumas preocupações na reunião aberta da AACN de que o termo "extremamente" não refletia adequadamente a frequência incomum de escores de teste nas extremidades da distribuição. Após a discussão entre os membros da conferência de consenso, foi acordado mudar o termo para "excepcionalmente". O debate e as considerações mais prolongadas e detalhadas envolveram especialmente as classificações "média inferior" ou "abaixo da média" na faixa de escore padrão de 80-89 devido à ambiguidade potencial de "média inferior" ainda ser considerada "média" e se um escore padrão abaixo de 90 deve ser considerado "abaixo da média". Uma consideração foi que até 24% da população seria considerada "abaixo da média" se o corte para "média" fosse de todos os escores padrão abaixo de 90. Essa atenção parecia ser particularmente importante entre alguns dos neuropsicólogos infantis. Foi realizada uma discussão sobre o uso de um termo adicional, como "ligeiramente" abaixo ou "levemente" abaixo da média, mas estes termos foram rejeitados devido à sua ambiguidade e falta de significado padrão. Na tentativa de encontrar uma resolução entre essas considerações e dada a aceitação da classificação "média inferior" para escores padrão de 80-89 entre muitos clínicos e sistemas de descritores qualitativos existentes (Groth-Marnat, 2009; Schretlen et al., 2010; Wechsler, 2009), o painel de consenso recomendou o descritor "médio inferior" para escores padrão entre 80 e 89.

Partindo do princípio de que os escores padrão entre 80 e 89 são categorizados como "médio inferior", então as pontuações que estiverem abaixo desse nível, na faixa de escore padrão de 70-79, são consideradas "abaixo da média". O sistema de classificação Wechsler adulto refere-se a essa faixa como "limítrofe", mas esse termo foi considerado muito ambíguo e propenso a sugerir uma conclusão interpretativa. Como observado anteriormente, outros editores de teste descreveram as pontuações nesta faixa como "baixas", "muito baixas", "bem abaixo da média", "pobres" e "abaixo da média para levemente prejudicadas". Esses termos também foram rejeitados por parecerem críticos ou tendenciosos, muito abertos à interpretação ou à fusão de um escore de teste com uma característica de prejuízo. Embora a conferência de consenso original recomendasse "pontuação baixa" como uma classificação na faixa de escore padrão de 70-79 em oposição à atual "abaixo da média", isso acabou sendo rejeitado pois essa faixa reflete pontuações que estão obviamente abaixo da média e, como indicado acima, ficam abaixo das pontuações que são "média inferior". Além disso, acreditava-se que a descrição de uma pontuação sendo simplesmente "baixa" ou "alta" (na faixa 120-129) era considerada muito ambígua e aberta à interpretação. Por último, as sugestões de que o termo "bem" fosse adicionado às classificações "abaixo da média" e "acima da média" também foram consideradas pela maioria dos copresidentes do grupo como acrescentando pouco, ou nenhum valor agregador.

As recomendações finais de consenso para classificações descritivas de escores de teste distribuídos normalmente estão listadas abaixo em escores padrão gerais comumente usadas em testes de inteligência. Transformar outros tipos de pontuações, como T-escores, Z-escores ou percentis, em descritores qualitativos seguiria a mesma abordagem de classificação. Considerando que, com a maioria dos testes baseados em desempenho, as pontuações padrão mais baixas indicam pior desempenho, em casos específicos, pontuações padrão mais altas podem indicar pior desempenho. Nesses casos, os clínicos escolhem as classificações que refletem essa distinção (Tabela 1).

Tabela 1. Recomendações de Classificações de Escores de teste com base em escores padrão e percentis para testes com distribuições normais.

O grupo de consenso também recomenda que os clínicos especifiquem o grupo normativo e quaisquer ajustes demográficos utilizados para a determinação do escore padrão (por exemplo, se os escores forem ajustados por sexo, idade, escolaridade, etc.). Os profissionais também devem reconhecer que a nomenclatura é baseada em escores derivados específicos, que são estimativas psicométricas limitadas por intervalos de confiança. Assim, os clínicos devem considerar cuidadosamente a classificação de escores próximas aos pontos de corte, incluindo a consideração da margem de erro. Além disso, o consenso do grupo é que esse sistema seja utilizado ao invés daqueles fornecidos dentro de manuais de teste específicos, pois isso promoverá a uniformidade em toda a disciplina e facilitará a comunicação consistente e eficaz com as partes interessadas. Finalmente, para esclarecer ainda mais a atribuição de classificações e descritores para escores de teste, uma recomendação do consenso é que os clínicos incluam uma tabela ou gráfico dentro dos relatórios para identificar explicitamente quais escores padrão coincidem com quais classificações. Isso é especialmente importante, pois reconhecemos que, apesar dos nossos esforços, o público leigo e outros clientes podem ter dificuldade em avaliar e entender as distinções entre as nossas recomendações de classificações de escore de testes qualitativos.

Como observado anteriormente, essas classificações de escore de teste destinam-se exclusivamente a serem descritivas, identificando posições de escores em relação a uma distribuição de curva normal. Sendo assim, as classificações não transmitem prejuízo ou outros julgamentos avaliativos; escores isoladamente não podem ser prejudicados ou deficientes. Mesmo reconhecendo que o risco de um escore representar uma função prejudicada aumenta com o desvio estatístico das probabilidades normativas, ainda assim, há o consenso de que a indicação de déficits ou prejuízos é de responsabilidade do profissional, que chega a tal determinação, utilizando uma ampla gama de informações específicas sobre a singularidade do paciente. Considerando isso, ao descrever os escores dos testes, a recomendação do consenso foi de colocar a palavra "pontuação" antes do descritor, a fim de enfatizar a diferença entre um resultado específico do teste e uma habilidade. Como uma questão prática, os clínicos podem achar complicado sempre colocar a palavra "pontuação" antes do descritor (por exemplo, pontuação média inferior), e assim pode decidir eliminar a palavra para diminuir a redundância e aumentar a concisão.

Recomendações do consenso para classificações de testes com distribuições não normais

Na neuropsicologia clínica são utilizados quatro tipos de testes que têm distribuições não normais.

A. Testes destinados a avaliar domínios cognitivos específicos, mas com distribuições altamente enviesadas na população normal (por exemplo, Teste de Nomeação de Boston, Judgment of Line Orientation - JLO, desenho do relógio, cópia de figura, etc.).

B. Testes utilizados para determinar a presença ou ausência de sinais patognomônicos ou condições específicas (por exemplo, testes para apraxia, sequenciamento motor manual, exame sensorial-perceptivo, etc.).

C. Testes de validade de desempenho (Performance Validity Tests - PVTs) e medidas usadas principalmente para identificar preocupações quanto ao engajamento no teste, ampliação dos sintomas, empenho e validade do teste (por exemplo, Test of Memory Malingering, Word Memory Test, Advanced Clinical Solutions Word Choice, etc.).

D. Questionários e escalas de classificação sobre habilidades cognitivas e/ou condições ou sintomas comportamentais frequentemente avaliados por neuropsicólogos (por exemplo, Behavioral Rating Inventory of Executive Function, Behavioral Assessment System for Children, Child Behavior Checklist - CBCL, etc.).

Os participantes da conferência de consenso não abordaram a classificação de escore de teste para questionários e escalas de classificação no Grupo D pois estes não são testes baseados em desempenho; fornecer recomendações sobre a classificação de escore para esses tipos de instrumentos estava além do escopo da AACN BOD. Para testes dos grupos A, B e C, o objetivo da administração do teste e o tipo de informação que o teste fornece são fundamentalmente diferentes entre si, bem como de testes que possuem distribuições de escore normais ou quase normais. Consequentemente, abordamos os testes em cada categoria separadamente e fornecemos uma discussão sumária com recomendações nas seções abaixo.

A. Testes com Distribuições Altamente Enviesadas

Os testes nesta categoria são fundamentais em uma avaliação neuropsicológica completa, pois muitos são projetados para avaliar uma capacidade cognitiva ou domínio específico (por exemplo, Judgment of Line Orientation, Neuropsychological Assessment Battery Naming Test, categorias concluídas no Wisconsin - WCST, teste de reconhecimento no Brief Visuospatial Memory Test - Revised - BVMT-R, etc.). A natureza desses testes é mais comparável às “medidas de critérios” que avaliam uma capacidade específica para a qual há pouca variabilidade entre indivíduos considerados "normais" ou saudáveis. Em geral, o objetivo desses testes é identificar áreas específicas de comprometimento ou déficit nos exames, ao contrário de “medidas normativas” que mostram alta variabilidade entre indivíduos "normais" ou saudáveis e situam resultados dentro da distribuição normal da população. Duas questões relacionadas a essas medidas foram ponderadas em profundidade pelos membros do grupo: É apropriado usar escore padrão para testes com faixas altamente restritas? E os escores nesses testes devem ser classificados de forma diferente dos testes com distribuições normais?

Em relação a testes com faixas de pontuação altamente restritas, o consenso era que percentis deveriam ser usados em vez de escores padrão. A justificativa para esta recomendação baseia-se no fato de que as classificações de percentil são mais comparáveis e significativas do que outros escores convertidos quando a distribuição é altamente enviesada. É importante ressaltar que os percentis para testes de distribuição não normal baseiam-se na contagem acumulada real de indivíduos que obtiveram pontuação específica e, portanto, não são estimativas estatísticas baseadas em unidades de desvio padrão em torno da média do grupo de referência. Assim, recomendamos evitar o uso de escores padrão para estes resultados de teste.

Para alguns testes com distribuições enviesadas, a normalidade pode ser aproximada através de vários procedimentos de "suavização". O uso de escores padrão nessas situações pode ser justificável, mas o clínico deve ponderar cuidadosamente os riscos e benefícios da transformação do escore padrão e dar uma consideração adicional sobre como esses escores devem ser classificados.

Quanto à questão de saber se as pontuações nesses testes devem ser classificadas de forma diferente dos testes com distribuições normais, o consenso do grupo foi de que as classificações deveriam ser as mesmas entre os dois tipos de testes, pelos seguintes motivos:

· Usar uma linguagem comum e um sistema simplificado para classificações descritivas nos dois tipos de testes é muito menos confuso para os clínicos e para os clientes.

· O uso de um sistema de classificação separado para testes nesta categoria criaria um sistema desnecessariamente complexo que poderia ser difícil de empregar em alguns ambientes clínicos.

· Às vezes, o neuropsicólogo pode não saber se a distribuição subjacente para um teste específico é normal ou não normal. Além disso, a distribuição subjacente do teste pode estar sujeita a alterações dependendo de variáveis demográficas específicas (por exemplo, sexo, idade, educação e considerações multiculturais).

· Neuropsicólogos competentes devem entender o teste, seu propósito e sua distribuição de pontuação na população normal.

Esta recomendação para utilizar classificações descritivas comparáveis a testes com distribuições normais ou enviesadas é feita com quatro exceções importantes:

a. Recomendam-se as mesmas classificações utilizadas com testes de distribuição normal, desde que a classificação percentil seja usada para determinar a descrição, e não um escore padrão. Isso é simples quando aplicado aos escores de classificação na extremidade inferior da distribuição, mas não na extremidade superior da distribuição (veja o item b. abaixo).

b. Em testes altamente enviesados, às vezes, é estatisticamente impossível atingir uma pontuação percentual nas faixas mais altas. Em muitos desses testes, uma pontuação bruta perfeita ou quase perfeita é tipicamente descrita como sendo igual ou acima do percentil 16. Por exemplo, uma pontuação perfeita de 6 categorias corretas no WCST é notada como simplesmente acima do percentil 16. Isso também é verdade para uma pontuação perfeita no reconhecimento BVMT-R ou na cópia da Figura Complexa de Rey. Considerando essa medição e a realidade estatística, descrever tais pontuações diferente de “dentro das expectativas normais” ou “dentro dos limites normais” seria inapropriado.

c. Partindo do princípio de que os testes enviesados têm efeitos de teto ou piso significativos e que, muitas vezes, são projetados para identificar déficits, não desempenho excepcional, classificar as pontuações mais altas desses testes como “acima da média” ou “excepcionalmente alta” (mesmo quando a faixa do percentil é alta) pode não ser significativo e pode ser falso. Por exemplo, o JLO, um teste de 30 itens, tem um teto baixo, em que 28% da amostra normativa obteve pontuações corrigidas de 29 a 30 e pontuações acima de 21 foram obtidas por 93% da amostra. Embora as pontuações de 29 ou 30 estejam no percentil 86, classificando essas pontuações como “superiores”, como descritas no manual (página 59), não é tão significativo quanto simplesmente indicar que a pontuação estava “dentro dos limites normais” ou “dentro das expectativas normais” (Benton, Sivan, Hamsher, Varney, & Spreen, 1994). Para exemplificar, uma pontuação no percentil 86 do JLO não tem o mesmo significado clínico de um teste com pontuações de distribuição normal, como alcançar o percentil 86 no Block Design. Para este último, as altas camadas percentuais sempre indicam que uma pequena porcentagem da amostra normativa obteve uma pontuação nessa faixa superior. Como este exemplo ilustra, isso não é verdade para testes com distribuições altamente enviesadas. Assim, recomendamos que os profissionais evitem utilizar os descritores “média superior”, “acima da média” ou “excepcionalmente alta” ao classificar pontuações na extremidade superior de uma distribuição altamente enviesada. Ao invés disso, utilizar uma descrição que transmita o significado geral de uma pontuação do teste, como o “desempenho estava dentro das expectativas normais” ou “dentro dos limites normais”, seria mais apropriado e isto inclui a faixa média ou acima do percentil 24. A tabela abaixo ilustra as recomendações de escores de teste de distribuição não normal com base em percentis. Advertimos, no entanto, que nem todos os testes de distribuição não normal se encaixarão no exemplo que fornecemos. É importante ressaltar que essas classificações não devem ser aplicadas aos PVTs (veja item C abaixo).

d. Finalmente, para testes nos quais os procedimentos de “suavização” têm sido empregados no desenvolvimento de normas, o uso de classificação de escore "excepcionalmente alto" é fortemente desencorajado pois esta classificação é destinada a testes com distribuições normais genuínas ou quase normais, ou seja, quando as pontuações na categoria “excepcionalmente alta” representam desempenhos igual ou acima do percentil 98 (Tabela 2).

Tabela 2. Recomendações de Classificações de Escores de teste com base em percentis para testes com distribuições não normais.

B. Testes utilizados para determinar a presença ou ausência de sinais patognomônicos

Testes para determinar a presença ou ausência de sinais patognomônicos ou condições específicas não são tipicamente impactados por diversas variáveis demográficas. Por exemplo, espera-se que adultos saudáveis realizem com poucos ou nenhum erro ou sem irregularidades testes de prática, sequenciamento motor e bisseção de linha. É claro que há exceções no atendimento a crianças devido às etapas do desenvolvimento. Por exemplo, certos erros de linguagem observados em uma criança de 4 anos são normais, entretanto se forem observados em um adolescente de 17 anos, tais erros seriam considerados patognomônicos (por exemplo, inversões de letras, erros de parafasia frequentes, etc.). As principais questões que consideramos foram: "Quando transtornos específicos, síndromes ou sinais patognomônicos são evidentes durante o teste é necessário, útil ou acurado relatar uma pontuação? Talvez, fazê-lo poderia ser um engano?”

Após cuidadosa consideração, a recomendação do consenso é de que quando um examinando apresentar um sinal patognomônico específico ou uma condição neurocomportamental, estes devem ser nomeados e/ou descritos em termos comportamentais específicos. Por exemplo, "Em várias tarefas de linguagem, não havia fluência na fala e apresentou múltiplos erros de parafasia. Ele era incapaz de ler ou escrever. No entanto, ele podia repetir palavras e frases curtas. Essas manifestações são consistentes com a afasia transcortical motora." Além disso, ao se referir a achados negativos ou à ausência de patologia ou desempenho anormal nesses tipos de exames, sugere-se o uso dos termos “intactos”, “presentes” ou “ausentes”, como apropriados ao tipo de manifestação. Nossa posição é que descrever ou nomear um sinal ou condição patognomônicos é muito mais instrutivo e preciso do que atribuir um escore, mesmo que existam faixas de pontuação disponíveis. O uso de classificações para escores de teste nesta categoria não é tão significativo ou informativo quanto descrições específicas e precisas do desempenho ou identificação da condição/síndrome específica. Um neuropsicólogo competente tem uma compreensão sofisticada das relações cérebro-comportamento e será hábil em identificar apresentações neurocomportamentais clássicas sem necessidade de escores de teste (por exemplo, afasia, apraxia, negligência/desatenção hemiespacial, agnosia, etc.). Isso é particularmente evidente quando procedimentos de avaliação são usados para revelar ou investigar a presença ou ausência de sinais patognomônicos ou condições neurocomportamentais específicas na categoria B.

C. Testes de validade de desempenho (Performance Validity Tests - PVTs)

De todos os tipos de teste considerados pelo grupo de trabalho de distribuição não normal, este recebeu a maior atenção da comunidade neuropsicológica. As razões para isso são provavelmente multifatoriais, mas certamente ligadas às implicações da classificação de pontuações de forma específica, especialmente em contextos forenses.

Após considerar uma série de sugestões fornecidas por clínicos da AACN interessados nesta categoria específica de testes, o consenso foi de que o seguinte sistema de três níveis de pontuação deve ser utilizado – “faixa válida”, “faixa indeterminada” e “faixa inválida”.

Embora uma variedade de sistemas existentes tenha sido considerada, muitos foram rejeitados por conter ou ter implícito uma posição interpretativa (por exemplo, aprovado versus reprovado), eram potencialmente críticos (aceitáveis versus inaceitáveis), careciam de especificidade ou concisão, ou não representavam adequadamente a gama de razões para o baixo desempenho (ou seja, um indivíduo pode obter pontuações baixas em PVTs por diversos motivos, um deles é uma recusa intencional de empenho).

A possível inclusão de uma quarta categoria (ou seja, “desempenho abaixo do nível de probabilidade”), foi discutida, entretanto foi rejeitada pelas seguintes razões: (1) ultrapassar a classificação de “faixa inválida” em uma subcategoria de pontuações abaixo do nível de probabilidade pode parecer estender a descrição ainda dentro da faixa inválida; (2) adicionar uma faixa de pontuação de subcategoria dentro da faixa já classificada como inválida seria potencialmente mais confuso e mais difícil de ser utilizada consistentemente entre os profissionais; e (3) espera-se que um neuropsicólogo competente comente sobre desempenhos e implicações significativamente abaixo do nível de probabilidade ao integrar todas as informações pertinentes em seu resumo interpretativo e formulação de casos.

Um ponto crítico é que alcançar uma pontuação de “faixa inválida” em um PVT nem sempre ou não automaticamente indica a presença de simulação de doença ou "empenho comprometido" e pode ou não invalidar todos os resultados dos testes. Em relação a essas questões, os participantes da conferência de consenso não tiveram áreas de discordância relacionadas às recomendações técnicas descritas na declaração de consenso da AACN de 2009 sobre validade de resposta e simulação de doença (Heilbronner et al. 2009). Em situações em que um examinando apresenta escores com uma ou mais faixas inválidas ou faixas indeterminadas, é, em última análise, o clínico, o responsável por julgar, com base na totalidade das informações disponíveis, o que esses escores significam e como devem ser interpretados.

Finalmente, são fornecidos três exemplos de como essas classificações podem ser usadas em um relatório. Esses exemplos podem ser incluídos em uma seção do relatório que descreve os resultados individuais dos testes. Em cada exemplo há uma clara referência ao escore, ao invés de uma instrução interpretativa específica.

· O escore do examinando em um stand-alone PVT (exemplos de testes, clique aqui) estava dentro da faixa válida.

· Em um embedded PVT (exemplos de testes, clique aqui), o examinando atingiu o escore na faixa indeterminada.

· A pontuação forced-choice memory PVT (exemplos de testes, clique aqui) estava dentro da faixa inválida.

Recomendações do consenso para definição e utilização de “prejuízos”

Das três áreas consideradas pela conferência de consenso, a definição de prejuízo evocou o menor número de respostas e sugestões da maior comunidade neuropsicológica da AACN. No entanto, após a própria conferência de consenso e a postagem de nossas recomendações na lista da AACN, os participantes da conferência de consenso revisitaram a definição inicial de prejuízo. O diálogo e a discussão em curso resultaram na seguinte recomendação de consenso para o termo prejuízo:

O comprometimento/prejuízo neuropsicológico é uma capacidade neurocognitiva ou neurocomportamental anormal. O prejuízo pode resultar da perda de uma habilidade previamente adquirida ou ser o resultado de um desenvolvimento atípico, pode ser transitório ou fixo ao longo do tempo, podendo ter impacto variável desde a capacidade funcional até a incapacidade. Os escores dos testes, por si só, não definem o comprometimento. Uma combinação de fatores, incluindo escores de teste que se desviam das expectativas, e outros achados relacionados à capacidade funcional, identificam o prejuízo neuropsicológico.

Na utilização da definição de prejuízo em casos individuais, devem ser considerados os seguintes fatores, dentre outros.

· Variabilidade intraindividual normal e a frequência de baixos escores em populações normais (Binder, Iverson, & Brooks, 2009; Donnell, Belanger, e Vanderploeg, 2011; Heyanka, Coldre, & Golden, 2013; Palmer, Boone, Lesser, & Wohl, 1998; Schretlen, Munro, Anthony, & Pearlson, 2003). Este último está relacionado, entre outros fatores, ao número de exames administrados e ao ponto de corte utilizado para definir a anormalidade.

· A convergência de variância compartilhada versus variância única entre os testes.

·As características do padrão normativo/de comparação (por exemplo, demograficamente estratificado versus normas populacionais gerais).

· Validade de desempenho.

· Engajamento no teste.

·Fatores culturais associados a diferentes diversidades (por exemplo, linguagem, alfabetização, nível e qualidade da educação, familiaridade e conforto com a situação de teste, vieses de teste, oportunidades de aprendizagem, conceito de comportamento inteligente e estilo de comunicação).

· Condições médicas e emocionais, medicamentos, fatores cognitivos e físicos (sem doenças).

· Pontuações altas, ou a falta de escores baixos, não impedem a determinação de limitações funcionais ou "prejuízo". Por outro lado, os escores baixos não indicam necessariamente prejuízo funcional; é necessário considerar o contexto para fazer tais determinações.

· A relevância funcional da conclusão no contexto do encaminhamento.

· Demandas de tarefas e ambientais, bem como os suportes que melhorem ou que atenuem a capacidade neurocognitiva ou neurocomportamental.

Ao relatar os resultados aos solicitantes, as informações devem ser claras e específicas, e transmitir conclusões interpretativas significativas, como indicar a presença ou ausência de prejuízo, ou que as conclusões são equívocas. Este relatório pode ser feito somente para a posse individual ou para um propósito geral.

Resumo

A falta de uniformidade na utilização de classificações de escore de teste de desempenho tem sido um problema de longa data na neuropsicologia clínica. Esta conferência de consenso é a primeira tentativa formal da comunidade neuropsicológica profissional de fazer recomendações para classificações uniformes de pontuação de teste de desempenho e para avançar em uma definição consistente de prejuízo. Nossas recomendações não são decretos ou normas, entretanto representam uma opinião de consenso de especialistas sobre essas questões importantes. Esperamos que os profissionais incorporem nossas recomendações em suas práticas clínicas para aumentar a uniformidade dos descritores de escore de teste, que é a maneira mais habitual de comunicar em relatórios clínicos e forenses o desempenho nos exames. O uso de descritores e termos uniformes reduzirá a confusão e aumentará a compreensão dos relatórios pelos clientes, bem como por nossos estagiários e colegas.

Nossas recomendações não são de forma alguma destinadas a interferir ou restringir a interpretação dos escores de teste, que continua a depender apenas do julgamento clínico do profissional. Reconhecemos e aceitamos que nem todos os neuropsicólogos considerarão nossas recomendações apropriadas para adoção em suas práticas clínicas ou concordarão com nossas recomendações de consenso. No entanto, nossas recomendações de consenso são a primeira tentativa sistematizada de alcançar a uniformidade dos descritores de teste feita pelos nossos especialistas e, como tal, pode iniciar um diálogo contínuo de toda a especialidade sobre essa questão crítica. Também reconhecemos que nossas recomendações não são permanentes e que a introdução de novos métodos e tecnologias de avaliação podem exigir modificações futuras para acomodar essas inovações. Portanto, os participantes da conferência de consenso respeitosamente saúdam o diálogo contínuo para desenvolver e refinar ainda mais nossa nomenclatura. Também queremos reconhecer o tempo e o esforço de todos os membros da comunidade neuropsicológica da AACN que contribuíram com feedbacks e sugestões úteis para nos ajudar nesse valioso projeto.

Agradecimentos

Os autores desejam expressar sua gratidão aos seguintes revisores externos: Robert L. Denney, Jacobus Donders, Anthony J. Giuliano, Mike R. Schoenberg e Keith Owen Yeates, bem como à aprovação do Comitê de Publicação da AACN e do Conselho Administrativo da AACN.

Declaração de divulgação

Nenhum conflito de interesse foi relatado pelos autores.

Referências

Beauchamp, M. H., Brooks, B. L., Barrowman, N., Aglipay, M., Keightley, M., Anderson, P., … Zemek, R. (2015). Empirical derivation and validation of a clinical case definition for neuropsychological impairment in children and adolescents. Journal of the International Neuropsychological Society, 21(8), 596–609. doi:10.1017/S1355617715000636 [Crossref], [PubMed], [Web of Science ®], [Google Scholar]
Benton, A. L., Sivan, A. B., Hamsher, K., Varney, R. R., & Spreen, O. (1994). Contributions to neuropsychological assessment: A clinical manual (2nd ed.). New York, NY: Oxford University Press. [Google Scholar]
Binder, L. M., Iverson, G. L., & Brooks, B. L. (2009). To err is human: “Abnormal” neuropsychological scores and variability are common in healthy adults. Archives of Clinical Neuropsychology, 24(1), 31–46. doi:10.1093/arclin/acn001 [Crossref], [PubMed], [Web of Science ®], [Google Scholar]
Brown, L., Sherbenou, R.J., & Johnsen, S.K. (1997). Examiner’s manual test of nonverbal intelligence (3rd ed.). Austin, TX: Pro-Ed. [Google Scholar]
Caplan, B. (1995). Choose your words. Rehabilitation Psychology, 40(3), 233–240. doi:10.1037/h0092829 [Crossref], [Google Scholar]
Donnell, A. J., Belanger, H. G., & Vanderploeg, R. S. (2011). Implications of psychometric measurement for neuropsychological interpretation. The Clinical Neuropsychologist, 25(7), 1097–1118. doi:10.1080/13854046.2011.599819 [Taylor & Francis Online], [Web of Science ®], [Google Scholar]
Groth-Marnat, G. (2009). Handbook of psychological assessment (5th ed.). Hoboken, NJ: John Wiley and Sons, Inc. [Google Scholar]
Guilmette, T. J., Hagan, L., & Giuliano, A. J. (2008). Assigning qualitative descriptors to test scores in neuropsychology: Forensic implications. The Clinical Neuropsychologist, 22(1), 122–139. doi:10.1080/13854040601064559 [Taylor & Francis Online], [Web of Science ®], [Google Scholar]
Heaton, R. K., Grant, I., & Matthews, C. G. (1991). Comprehensive norms for an expanded Halstead-Reitan Battery: Demographic corrections, research findings, and clinical applications. Odessa, FL: Psychological Assessment Resources. [Google Scholar]
Hebben, N., & Milberg, W. (2002). Essentials of neuropsychological assessment. New York, NY: John Wiley and Sons. [Google Scholar]
Heilbronner, R. L., Sweet, J. J., Morgan, J. E., Larrabee, G. J., Millis, S. R., & Conference Participants. (2009). American Academy of Clinical Neuropsychology consensus conference statement on the neuropsychological assessment of effort, response bias, and malingering. The Clinical Neuropsychologist, 23, 1093–1129. doi:10.1080/13854040903155063 [Taylor & Francis Online], [Web of Science ®], [Google Scholar]
Heyanka, D. J., Holster, J. L., & Golden, C. J. (2013). Intraindividual neuropsychological test variability in healthy individuals with high average intelligence and educational attainment. International Journal of Neuroscience, 123(8), 526–531. doi:10.3109/00207454.2013.771261 [Taylor & Francis Online], [Web of Science ®], [Google Scholar]
Ingraham, L. J., & Aiken, C. B. (1996). An empirical approach to determining criteria for abnormality in test batteries with multiple measures. Neuropsychology, 10(1), 120–124. doi:10.1037/0894-4105.10.1.120 [Crossref], [Web of Science ®], [Google Scholar]
Kaufman, A. S., & Kaufman, N. L. (1994). Kaufman Short Neuropsychological Assessment Procedure manual. Bloomington, MN: Pearson. [Google Scholar]
Meyer, A.-C. L., Boscardin, W. J., Kwasa, J. K., & Price, R. W. (2013). Is it time to rethink how neuropsychological tests are used to diagnose mild forms of HIV-associated neurocognitive disorders? Impact of false-positive rates on prevalence and power. Neuroepidemiology, 41(3-4), 208–216. doi:10.1159/000354629 [Crossref], [PubMed], [Web of Science ®], [Google Scholar]
Palmer, B. W., Boone, K. B., Lesser, I. M., & Wohl, M. A. (1998). Base rates of “impaired” neuropsychological performance among healthy older adults. Archives of Clinical Neuropsychology, 13, 503–511. doi:10.1016/S0887-6177(97)00037-1 [Crossref], [PubMed], [Web of Science ®], [Google Scholar]
Schoenberg, M. R., Osborn, K. E., Mahone, E. M., Feigon, M., Roth, R. M., & Pliskin, N. H. (2018). Physician preferences to communicate neuropsychological results: Comparison of qualitative descriptors and a proposal to reduce communication errors. Archives of Clinical Neuropsychology, 31, 631–643. doi:10.1093/arclin/acx106 [Crossref], [Google Scholar]
Schoenberg, M. R., & Rum, R. S. (2017). Towards reporting standards for neuropsychological study results: A proposal to minimize communication errors with standardized qualitative descriptors for normalized test scores. Clinical Neurology and Neurosurgery, 162, 72–79. doi:10.1016/j.clineuro.2017.07.010 [Crossref], [PubMed], [Web of Science ®], [Google Scholar]
Schrank, F. A., McGrew, K. S., & Mather, N. (2014). Woodcock-Johnson IV tests of cognitive abilities. Rolling Meadows, IL: Riverside. [Google Scholar]
Schretlen, D. J., Munro, C. A., Anthony, J. C., & Pearlson, G. D. (2003). Examining the range of normal intraindividual variability in neuropsychological test performance. Journal of the International Neuropsychological Society, 9(6), 864–870. doi:10.1017/S1355617703960061 [Crossref], [PubMed], [Web of Science ®], [Google Scholar]
Schretlen, D. J., Testa, S. M., & Pearlson, G. D. (2010). Calibrated Neuropsychological Normative System professional manual. Lutz, FL: Psychological Assessment Resources. [Google Scholar]
Stern, R. A., Javorsky, D. J., Singer, E. A., Singer Harris, N. G., Somerville, J. A., Duke, L. M., … Kaplan, E. (1999). The Boston qualitative scoring system for the Rey-Osterrieth figure. Lutz, FL: Psychological Assessment Resources. [Google Scholar]
Wechsler, D. (2009). WMS-IV technical and interpretive manual. San Antonio, TX: Pearson. [Google Scholar]
Wechsler, D. (2014). Wechsler intelligence scale for children (5th ed.). San Antonio, TX: Pearson. [Google Scholar]
Wilkinson, G. S., & Robertson, G. J. (2007). WRAT-5 Wide Range Achievement Test 5th Edition professional manual. Bloomington, MN: Pearson. [Google Scholar]

Apêndice

Beauchamp, M. H., Brooks, B. L., Barrowman, N., Aglipay, M., Keightley, M., Anderson, P., … Zemek, R. (2015). Empirical derivation and validation of a clinical case definition for neuropsychological impairment in children and adolescents. Journal of the International Neuropsychological Society, 21(8), 596–609. doi:10.1017/S1355617715000636 [Crossref], [PubMed], [Web of Science ®], [Google Scholar]
Brooks, B. L., & Iverson, G. L. (2012). Improving accuracy when identifying cognitive impairment in pediatric neuropsychological assessments. In E. Sherman & B. Brooks (Eds.), Pediatric forensic neuropsychology (pp. 66–88). New York, NY: Oxford University Press. [Google Scholar]
Busch, R. M., Chelune, G. J., & Suchy, Y. (2006). Using norms in neuropsychological assessment of the elderly. In D. Attix & K. Welsh-Bohmer (Eds.), Geriatric neuropsychology assessment and intervention (pp. 133–157). New York, NY: The Guilford Press. [Google Scholar]
Chelune, G. J., & Duff, K. (2013). The assessment of change: Serial assessments in dementia evaluations. In L. D. Ravdin & H. L. Katzen (Eds.), Handbook on the neuropsychology of aging and dementia, clinical handbooks in neuropsychology (pp. 43–57). New York, NY: Springer Science + Business Media, LLC. [Crossref], [Google Scholar]
Erodi, L. A., & Lichtenstein, J. D. (2017). Invalid before impaired: An emerging paradox of embedded validity indicators. The Clinical Neuropsychologist, 31, 1029–1046. doi:10.1080/13854046.2017.1323119 [Taylor & Francis Online], [Web of Science ®], [Google Scholar]
Guilmette, T. J., Hagan, L., & Giuliano, A. J. (2008). Assigning qualitative descriptors to test scores in neuropsychology: Forensic implications. The Clinical Neuropsychologist, 22(1), 122–139. doi:10.1080/13854040601064559 [Taylor & Francis Online], [Web of Science ®], [Google Scholar]
Ingraham, L. J., & Aiken, C. B. (1996). An empirical approach to determining criteria for abnormality in test batteries with multiple measures. Neuropsychology, 10(1), 120–124. doi:10.1037/0894-4105.10.1.120 [Crossref], [Web of Science ®], [Google Scholar]
Meyer, A.-C. L., Boscardin, W. J., Kwasa, J. K., & Price, R. W. (2013). Is it time to rethink how neuropsychological tests are used to diagnose mild forms of HIV-associated neurocognitive disorders? Impact of false-positive rates on prevalence and power. Neuroepidemiology, 41(3–4), 208–216. doi:10.1159/000354629 [Crossref], [PubMed], [Web of Science ®], [Google Scholar]
Schoenberg, M. R., Osborn, K. E., Mahone, E. M., Feigon, M., Roth, R. M., & Pliskin, N. H. (2018). Physician preferences to communicate neuropsychological results: Comparison of qualitative descriptors and a proposal to reduce communication errors. Archives of Clinical Neuropsychology, 31, 631–643. doi:10.1093/arclin/acx106 [Crossref], [Google Scholar]
Schoenberg, M. R., & Rum, R. S. (2017). Towards reporting standards for neuropsychological study results: A proposal to minimize communication errors with standardized qualitative descriptors for normalized test scores. Clinical Neurology and Neuropsychology, 162, 72–79. doi:10.1016/j.clineuro.2017.07.010 [Crossref], [Google Scholar]

FONTE: https://www.tandfonline.com/doi/full/10.1080/13854046.2020.1722244

The Clinical Neuropsychologist, Volume 34, 2020 - Issue 3

Thomas J. Guilmette, Jerry J. Sweet, Nancy Hebben, Deborah Koltai, E . Mark Mahone, Brenda J. Spiegler

Declaração de conferência de consenso da AACN sobre a classificação uniforme de escore de teste

Declaração do problema

Desenvolvimento da conferência de consenso

Processo de criação de consenso e a redação da declaração de consenso

Recomendações do consenso para classificações de testes com distribuições normais

Recomendações do consenso para classificações de testes com distribuições não normais

A. Testes com Distribuições Altamente Enviesadas

B. Testes utilizados para determinar a presença ou ausência de sinais patognomônicos

C. Testes de validade de desempenho (Performance Validity Tests - PVTs)

Recomendações do consenso para definição e utilização de “prejuízos”

Resumo

Agradecimentos

Declaração de divulgação

Referências

Apêndice

Posts recentes

Comments

Av. Com Videlmo Munhoz, 130 Sala3
Anhangabaú Jundiaí SP Brasil 13208-050

+55 11 99173 8631

+55 11 99173 8631

neuropsicologalivia@gmail.com

Declaração de conferência de consenso da AACN sobre a classificação uniforme de escore de teste

Declaração do problema

Desenvolvimento da conferência de consenso

Processo de criação de consenso e a redação da declaração de consenso

Recomendações do consenso para classificações de testes com distribuições normais

Recomendações do consenso para classificações de testes com distribuições não normais

A. Testes com Distribuições Altamente Enviesadas

B. Testes utilizados para determinar a presença ou ausência de sinais patognomônicos

C. Testes de validade de desempenho (Performance Validity Tests - PVTs)

Recomendações do consenso para definição e utilização de “prejuízos”

Resumo

Agradecimentos

Declaração de divulgação

Referências

Apêndice

Posts recentes

Comments

Av. Com Videlmo Munhoz, 130 Sala3 Anhangabaú Jundiaí SP Brasil 13208-050

+55 11 99173 8631

Av. Com Videlmo Munhoz, 130 Sala3
Anhangabaú Jundiaí SP Brasil 13208-050