Artículo de Revisión
Estimadores de consistencia interna en las investigaciones en salud: el uso del coeficiente alfa
Estimators of internal consistency in health research: the use of the alpha coefficient
Franciele Cascaes da Silva1,a, Elizandra Gonçalves1,b, Beatriz Angélica Valdivia Arancibia1,c Gisele Graziele Bento1,a, Thiago Luis da Silva Castro1,d, Salma Stephany Soleman Hernandez1,e, Rudney da Silva1,f
1 Centro de Ciencias de la Salud y del Deporte, Universidad del Estado de Santa Catarina, Santa Catarina, Brasil.
a Especialista en Didáctica e Interdisciplinaridad; b especialista en Fisiología y Entrenamiento personalizado para grupos especiales; c licenciado en Educación Física d magíster en Motricidad Humana; e doctor en Ingeniería de Producción.
RESUMEN
La producción académica ha aumentado en el área de la salud, exigiendo cada vez más calidad en las publicaciones de gran impacto. Una de las formas de considerar la calidad es por medio de procedimientos que aumentan la consistencia del análisis de los datos, como la confiabilidad, que dependiendo del tipo de datos, puede ser evaluada por diferentes coeficientes, en especial el coeficiente alfa. Basados en lo anterior, la presente revisión reúne sistemáticamente artículos científicos producidos en los últimos cinco años, que de manera metodológica hicieron uso psicométrico del coeficiente α como un estimador de consistencia interna y de confiabilidad en procesos de construcción, adaptación y validación de instrumentos. La identificación de los estudios fue realizada sistemáticamente en las bases de datos Biomed Central Journals, Google Scholar, Web of Science, Wiley Online Library, Medline via Pubmed, Scielo, Scopus, Journals@Ovid, BMJ y Springer por medio del Portal de Periódicos CAPES, utilizando criterios de inclusión y exclusión. El análisis de los datos fue realizado por medio de triangulación, análisis de contenido y análisis descriptivo. Se obtuvo que la mayoría de los estudios fueron realizados principalmente en Irán (f=3), España (f=2) y Brasil (f=2), estos estudios tuvieron como objetivo testar las propiedades psicométricas de instrumentos, siendo que ocho estudios utilizaron el coeficiente α para evaluar la confiabilidad y nueve para evaluar la consistencia interna. Todos los estudios fueron clasificados como investigaciones metodológicas al analizar sus objetivos. Adicionalmente, cuatro estudios también fueron clasificados como correlacionales y uno como descriptivo-correlacional. Se puede concluir que a pesar de que el coeficiente α es ampliamente utilizado como uno de los principales parámetros para la evaluación de consistencia interna de instrumentos de medición del tipo cuestionario en el área de ciencias de la salud, su uso como estimador de confianza de la metodología utilizada y consistencia interna, posee algunas críticas que deben ser consideradas.
Palabras clave: Investigación científica y desarrollo tecnológico; Confiabilidad y Validez; Psicometría (fuente: DeCS BIREME).
ABSTRACT
Academic production has increased in the area of health, increasingly demanding high quality in publications of great impact. One of the ways to consider quality is through methods that increase the consistency of data analysis, such as reliability which, depending on the type of data, can be evaluated by different coefficients, especially the alpha coefficient. Based on this, the present review systematically gathers scientific articles produced in the last five years, which in a methodological manner gave the α coefficient psychometric use as an estimator of internal consistency and reliability in the processes of construction, adaptation and validation of instruments. The identification of the studies was conducted systematically in the databases BioMed Central Journals, Web of Science, Wiley Online Library, Medline, SciELO, Scopus, Journals@Ovid, BMJ and Springer, using inclusion and exclusion criteria. Data analyses were performed by means of triangulation, content analysis and descriptive analysis. It was found that most studies were conducted in Iran (f=3), Spain (f=2) and Brazil (f=2). These studies aimed to test the psychometric properties of instruments, with eight studies using the α coefficient to assess reliability and nine for assessing internal consistency. All studies were classified as methodological research when their objectives were analyzed. In addition, four studies were also classified as correlational and one as descriptive-correlational. It can be concluded that though the α coefficient is widely used as one of the main parameters for assessing internal consistency of questionnaires in health sciences, its use as an estimator of trust of the methodology used and internal consistency has some critiques that should be considered.
Key words: Scientific research and technological development; Reproducibility of results; Psychometrics (source: MeSH NLM).
INTRODUCCIÓN
El incremento de la producción académica ha sido identificado en diversas áreas del conocimiento humano. En el área de la salud, la calidad exigida para las publicaciones de gran impacto ha aumentado considerablemente, y los procedimientos que aumentan la consistencia del análisis ejecutado pueden ser considerados una importante herramienta en este proceso. La evaluación de las propiedades psicométricas, como la confiabilidad, puede ser expresada en términos de estabilidad, equivalencia y consistencia de instrumentos y de sus datos, inclusive en diferentes contextos, como por ejemplo, en la utilización de diferentes ítems para individuos (consistencia interna), en el transcurso del periodo de evaluación (test-retest), o entre los individuos en diferentes momentos (intraobservadores) (1), siendo esta una herramienta ampliamente utilizada en las últimas décadas para diferentes áreas.
Básicamente se identifican dos categorías de coeficientes de confiabilidad. El primero utilizado para datos longitudinales (confiabilidad test-retest), y el segundo para datos transversales (consistencia interna y confiabilidad de equivalencia). Para el análisis de confiabilidad de los datos longitudinales es utilizado un test específico denominado coeficiente de correlación intraclase (CCI) para medidas continuas y el coeficiente de Kappa para las medidas dicotómicas y ordinales (2,3). Para las investigaciones transversales, el test que evalúa la equivalencia puede ser verificado básicamente por dos métodos: 1) consistencia de formas paralelas, que consiste en un mismo instrumento con diferentes presentaciones y que producen los mismos resultados (4,5); 2) evaluación de consistencia interevaluadores o interobservadores, que es la capacidad de un test aplicado por múltiples evaluadores para conseguir los mismos resultados (5-12). Por otro lado, la consistencia interna puede ser evaluada por medio de cuatro métodos: 1) mitad dividida (5,7-9,13,14); 2) correlaciones totales totales (13); 3) coeficiente de Kuder-Richardson (13); y 4) coeficiente alfa (α) (13).
El coeficiente α fue propuesto por Cronbach en el año 1951, y es considerado como un estimador de consistencia interna para medidas psicológicas, siendo uno de los índices estadísticos más utilizados a pesar de sus innumerables críticas (15,16). Su popularidad puede ser atribuida a su importancia en la práctica psicométrica, ya que se basa en el uso de múltiples indicadores para medir constructos latentes, dando una gran importancia en la confiabilidad de las mediciones. Además, este coeficiente tiene propiedades deseables en relación a otros índices que son utilizados para el análisis de confiabilidad (17), tales como, su facilidad de cálculo, su aplicación en casi todos los programas estadísticos, entre otros.
El coeficiente α mide la correlación entre las respuestas de un cuestionario por medio del análisis de perfil de las respuestas dadas; y el análisis de las preguntas, asimismo, ejecuta una correlación media entre las propias preguntas. De este modo, considerando que todos los ítems de un cuestionario utilizan la misma escala de medición, el coeficiente α es calculado a partir de la varianza de los ítems individuales y de la varianza de la suma de los ítems de cada evaluado (18). Frente a esto, su utilización genera algunas críticas que deben ser reconocidas en la investigación científica. Por lo tanto, este artículo busca reunir sistemáticamente artículos científicos producidos en los últimos cinco años, que de manera metodológica hicieron uso psicométrico del coeficiente α como un estimador de consistencia interna y de confiabilidad en procesos de construcción, adaptación y validación de instrumentos. Por lo tanto, se destaca la necesidad de presentar detalladamente el coeficiente α, identificando sus principales características estadísticas, sus aplicaciones y principales limitaciones.
ESTIMADORES DE CONFIABILIDAD Y DE CONSISTENCIA INTERNA
De acuerdo con la teoría clásica, la confiabilidad es definida como el grado en que un instrumento mide varios ítems de una muestra (19). Existen tres formas básicas para medir la confiabilidad: confiabilidad test-retest, sensibilidad al cambio (considerado igualmente como parte de validez) y la consistencia interna (solamente para determinar la aplicación exacta de un instrumento) (19). Todas estas buscan determinar la proporción de la varianza de una escala y correlacionar los puntajes de una escala con los resultados de la reproducción.
La medición de la confiabilidad de consistencia interna es utilizada para determinar la solidez de los resultados de los ítems de una escala, y el cuanto se correlacionan entre sí y con el resultado general de la investigación. Existen algunos métodos para identificar la consistencia interna como la fórmula 20, el coeficiente de Angoff-Feldt, el coeficiente beta propuesto por Raju, el coeficiente de Feldt-Glimer, y coeficiente α descrito por Cronbach.
La fórmula 20 propuesta en 1937 por Kuder-Richardson (KR-20), es recomendada para medir la consistencia interna de una escala cuando los ítems son respuestas dicotómicas. El coeficiente de Kristof (1947) es utilizado para estimar la consistencia interna de un test de tres partes altamente correlacionados. El coeficiente de Angoff-Feldt subestimar la consistencia interna. El coeficiente de Feldt-Glimer (1083) es una variante cuando la escala es dividida en tres o más partes iguales (19). El coeficiente α, descrito en 1951 por Lee J. Cronbach (20,21), se refiere a un índice para medir la consistencia interna de una escala que sirve para evaluar la extensión en que los ítems de un instrumento son correlacionados. En otras palabras, el coeficiente α es el promedio de las correlaciones entre los ítems que son parte de un instrumento, por medio de análisis del perfil de las respuestas (18,19).
Según Matthiensen (22) el coeficiente α es calculado a partir de la suma de la varianza de los ítems individuales y de la suma de la varianza de cada evaluado (individuo que responde el instrumento), donde la varianza es la medida de la distancia entre los valores reales y esperados (ecuación de alfa de Cronbach) (20-22), donde k corresponde al número de ítems (preguntas) del (instrumento) cuestionario; S2 corresponde a la varianza de cada ítem, y S2 corresponde a la varianza total del cuestionario (suma de las varianzas de los evaluadores).
La ecuación del coeficiente α está representada de la siguiente forma:
La Tabla 1 muestra la aplicación paso a paso del coeficiente, donde cada columna indica un ítem, cada fila indica un evaluado o individuo, y la conexión entre un ítem y un evaluado (Xnk) indica la respuesta de este evaluado para este ítem dentro de la escala.
El coeficiente α es efectivo ya que la varianza de la suma de un grupo de variables independientes es la suma de sus varianzas (23). Si las variables están correlacionadas positi- vamente, la varianza de la suma aumentará. Si los ítems de una escala son todos iguales, la correlación es perfecta, todas las S2 serán iguales y α =1. Pero, por otro lado, si los ítems son todos independientes, α será igual a 0 (22).
La confiabilidad también puede ser testada mediante la eliminación de ítems del cuestionario. Si con la eliminación de un ítem, el coeficiente α aumenta, podría asumirse que ese ítem no es altamente correlacionado con los otros ítems de la escala. Por el contrario, se α disminuye, se puede asumir que ese ítem es altamente correlacionado con los otros ítems de la escala. Así, el coeficiente α determina si la escala es realmente confiable, ya que evalúa cada ítem reflejando su confiabilidad (18,24).
El coeficiente α es uno de los métodos más versátiles para evaluar la consistencia interna y además, sus resultados son de fácil obtención por ser basados en la aplicación de un test (19,25,26). Es el método más utilizado para estimar la confiabilidad de test estandarizados, y puede ser utilizada con ítems que tienen varios valores de puntos, e involucra el cálculo de la varianza de las partes del test, ítems, mitades, intentos o una serie de test cortos (27). También tiene la ventaja de corresponder al promedio de todos los posibles resultados de la comparación de la división en media escala (18).
Sin embargo, por ser un método que correlaciona los ítems del test, el valor alfa puede ser modificado, donde un alto coeficiente α no siempre significará un alto grado de consistencia interna (10). Es decir, el valor de coeficiente α aumenta cuando aumentan las intercorrelaciones entre los ítems, cuando se mide el mismo constructo del elemento. El valor de alfa se ve afectado no solamente por la correlación entre las respuestas, sino también por la extensión del test, por el número de ítems que componen una escala (28,29).
Los valores de la consistencia de la escala pueden ser sobreestimados cuando el coeficiente α es utilizado en la correlación de medidas multidimensionales, o sea, a medida que el número de ítems aumenta, la varianza entre ellos también aumenta (16,30). Lo mismo ocurre con el tamaño de la muestra, cuanto mayor el número de individuos de una escala, mayor será la varianza (23). Además los valores muy altos de alfa, pueden estar indicando una redundancia entre las preguntas. Frente a estas limitaciones, el valor de alfa debe ser medido cada vez que el test sea administrado (28).
El valor del coeficiente α debe ser alto para determinar la consistencia interna. No existe un valor mínimo definido para este coeficiente, sin embargo, la literatura (18,29,30) denota un valor mínimo aceptable de 0,70, en el intervalo entre 0 y 1, lo cual, valores debajo de 0 caracterizan una baja consistencia interna de la escala utilizada. Regularmente los valores preferenciales de alfa se sitúan entre 0,80 y 0,90 (19,25). El valor máximo esperado es de 0,90 y, por encima de este valor se considera que existe redundancia o duplicación, porque califica ítems con el mismo constructo de elemento, y deben ser eliminados (29).
Sin embargo, Bland y Altman(23) señalan que para aplicaciones clínicas (área médica) son necesarios valores más altos, siendo 0,90 como mínimo y 0,95 como valor deseable. Estos casos están relacionados con estudios clínicos que buscan identificar diferencias en el valor de cambio de la variable albo, como por ejemplo, la identificación de la capacidad de respuesta de la terapia en el individuo, lo que contrasta con la búsqueda de identificación de los efectos del tratamiento a partir de diferencias entre los grupos caso y control, porque en este caso, los valores altos de alfa pueden representar pocos cambios en el comportamiento de la variable albo (31). Cortina(15) describe otras interpretaciones para el índice de Cronbach, destacando que alfa es una medida de confiabilidad estabilizada, ya que no está sujeto a la variabilidad resultante de la forma en que el instrumento o el test son divididos para calcular la confiabilidad split-half, donde dos puntos se obtienen de una sola prueba que marca los elementos por separado y los pares impares de artículos(21). De este modo, se puede verificar que existen diversas formas para medir la confiabilidad de consistencia interna, siendo que el coeficiente α es un estimador de consistencia interna que puede ser utilizado en aplicaciones clínicas, a pesar de la necesidad de aumentar los valores aceptables de consistencia. A continuación se demuestra la utilización del coeficiente α en las investigaciones en salud.
MÉTODO
Este estudio fue inicialmente caracterizado como una revisión sistemática realizada con artículos producidos en los últimos años y con artículos que metodológicamente utilizaron psicométricamente el coeficiente α como estimador de consistencia interna y de confiabilidad en procesos de construcción, adaptación y validación de instrumentos. Por otro lado, se realizó una revisión narrativa basada en material bibliográfico proveniente de las ciencias de la información y de las ciencias exactas y, en caso de la estadística, se presentan detalladamente las principales características de los estimadores de consistencia interna con énfasis en el coeficiente α.
SELECCIÓN DE LAS BASES DE DATOS
Los estudios fueron buscados sistemáticamente por medio del recurso de búsqueda avanzada del portal de la Coordinación de Perfeccionamiento de Personas del Nivel Superior (Portal Periódicos CAPES), siendo seleccionado el área de Ciencias de la Salud; simultáneamente con las bases de datos Biomed Central Journals, Google Scholar, Web of Science, Wiley Online Library, Medline a través de Pubmed, ScIELO, SCOPUS, Journals@Ovid, BMJ y Springer Link. Estas bases de datos fueron seleccionadas por indexar estudios provenientes del área de las ciencias de la salud y por ser bases reconocidas en el área (32,33). Por lo tanto, los descriptores utilizados fueron: a) Reproductibilidad de los resultados (Reproducibility of Results); b) Estudios de validación como tópico (Validation Studies); c) Estudios de validación (Validation Studies); d) Validez (Validity); e) Confiabilidad (Reliability); f) Coeficiente alfa de Cronbach (Cronbach’s alpha); g) Psicométricos (Psychometrics). Además de este procedimiento, se realizó una revisión bibliométrica mediante una búsqueda manual de referencias bibliográficas para identificar otros estudios sobre estas temáticas y que podrían ser incluidos en el análisis, así como también estudios que proporcionen contribuciones relevantes.
IDENTIFICACIÓN DE LOS ESTUDIOS
La identificación de los estudios para la revisión sistemática fue realizada a partir de los criterios de inclusión: a) con delineamientos empíricos; b) disponibles en forma completa vía on-line; c) producidos entre los años 2010 y 2014; d) provenientes del área de la salud; e) publicados en cualquier idioma; y f) que metodológicamente usaran psicométricamente el coeficiente α como estimador de consistencia interna y de confiabilidad en procesos de construcción, adaptación y validación de instrumentos. Fueron excluidos los estudios que se encuadraban en los siguientes criterios: a) estudios de revisión; b) artículos cortos (short papers); c) charlas; d) editoriales; resúmenes; f) resúmenes expandidos; g) posters; y h) estudios que utilizaron el coeficiente α exclusivamente para evaluación de los resultados colectados. Los artículos que no fueron incluidos en la revisión sistemática por no alcanzar los criterios de selección fueron considerados para la revisión narrativa. Este procedimiento fue adoptado para garantizar que diferentes opiniones científicas fueran analizadas y presentadas de acuerdo con la intención de los estudios.
La búsqueda fue realizada y organizada por dos revisores independientes, identificando los títulos de cada artículo. Posteriormente, procedieron a la lectura de los resúmenes, dentro de los cuales fueron identificados artículos para su lectura integral. Posteriormente a la lectura integral los artículos fueron seleccionados y considerados elegibles por todos los revisores. Las discrepancias entre los revisores fueron resueltas por consenso a partir de un análisis argumentado y en caso de persistir discordancias, debería ser aplicada la escala Likert de cinco niveles: a) sin ninguna condición de ser aceptable (1 punto); b) con muy poca condición de ser aceptable (2 puntos); c) con poca condición de ser aceptable (3 puntos); d) con condición de ser aceptable (4 puntos); y e) con bastante condición de ser aceptable (5 puntos). En caso que un artículo recibiera de los dos revisores la suma menor o igual a seis puntos, debería ser excluido de la revisión sistemática.
De este modo fueron identificados 51 artículos. Con base en la lectura del título y del resumen, fueron excluidos 34 artículos por parte de los revisores. Adicionalmente, fueron identificados 14 estudios a través de una búsqueda manual y, de este modo, fueron seleccionados 17 estudios para la revisión sistemática y 14 estudios para la revisión narrativa. La Figura 1 muestra el diagrama de los estudios incluidos.
ANÁLISIS DE LOS DATOS
El análisis del material bibliográfico fue realizado descriptivamente utilizando el método de triangulación de datos y la técnica de análisis de contenido. La técnica de triangulación de la información es considerada como un criterio que permite verificar la credibilidad en la investigación científica, ya que sistematiza diferentes fuentes de información (34). La técnica de triangulación auxilia también en la máxima amplitud de descripción, explicación y comprensión del problema investigado (35). Considerando que esta técnica otorga una verificación de la información, también proporciona una fuerte interpretación y análisis de datos, optándose por la técnica de triangulación teórica y triangulación metodológica, especialmente la de tipo between-method. La triangulación teórica fue creada a partir de la utilización de fuentes bibliográficas disponibles en libros, artículos empíricos, artículos teóricos y anales, que representan diferentes posicionamientos teóricos, en especial, sobre los consensos y discrepancias en el uso de los estimadores de confiabilidad existentes en la literatura especializada. Por otra parte, la triangulación metodológica fue creada a partir de la aplicación de diferentes métodos en la producción de conocimiento representados en la ejecución de la revisión sistemática y de la revisión narrativa, que representan respectivamente, el conocimiento de la producción científica delimitada a los criterios adoptados, y al análisis conceptual y crítica de los coeficientes de confiabilidad, en especial, del coeficiente α.
El análisis de contenido que se caracteriza por un conjunto de técnicas de análisis de las comunicaciones, y que se utiliza en procedimientos sistemáticos y objetivos de descripción de contenido (variables inferidas), fue orientado por la categorización del contenido en tópicos temáticos. Las principales variables fueron definidas por las unidades de significancia obtenidas por los indicadores a priori y a posteriori (36); por lo tanto, las unidades definidas a priori fueron utilizadas básicamente para iniciar el proceso de selección de los materiales bibliográficos que trataban del objeto de estudio de acuerdo con la categoría principal (estimadores de confiabilidad) y sus diversas subcategorías relacionadas a los tipos de estudios (construcción, traducción, validación, transculturalidad, entre otras) y a los procedimientos metodológicos (reproductibilidad, validez, consistencia interna, consistencia externa, entre otros), además de orientar el propio proceso de análisis categorial adoptado. En las unidades obtenidas a posteriori fueron utilizadas para avanzar las predefiniciones realizadas, permitiendo de este modo, obtener contenidos que detallarán mejor las categorías en el estudio, así como también, permite identificar nuevas categorías, en especial, sobre diferentes estimadores de confiabilidad, discrepancias teóricas, limitaciones psicométricas, entre otros.
En este sentido, es posible afirmar que el análisis de contenido también permite estandarizarlos procedimientos de análisis que sustentan tres características esenciales en la investigación científica: a) objetividad, ya que aclara las normas y los procedimientos adoptados en el proceso de análisis; b) sistematización, ya que permite la inclusión y la exclusión de un contenido de acuerdo con las normas consistentes; c) inferencia, ya que permite establecer relaciones entre diferentes contenidos, confiriendo así su importancia.
El análisis bibliográfico fue realizado por la exposición de tópicos relacionados al tema de investigación, y para la presentación de los resultados del análisis sistemático fue realizada una descripción sintetizada de los elementos investigados en los artículos científicos seleccionados, a partir de la elaboración de cuadros sinópticos, proporcionando informaciones relevantes sobre las características de cada artículo (autores, año de publicación, título del artículo, objetivos, tipo de investigación y uso del coeficiente α).
RESULTADOS Y DISCUSIÓN
En la Tabla 2 se presenta una síntesis de los estudios que fueron abordados utilizando el estimador de consistencia interna, coeficiente α, y que además fueron considerados como investigaciones totalmente enfocadas en el área de la salud. De este modo, se puede verificar que la mayoría de los estudios evaluados en los últimos dos años fueron realizados principalmente en Irán (3), seguido de España (2) y Brasil (2).
También se puede verificar que la mayoría de los estudios evaluados en los últimos dos años buscaron testar las propiedades psicométricas de instrumentos, siendo que ocho estudios utilizaron el coeficiente α para evaluar la confiabilidad y nueve para evaluar la consistencia interna. Se puede destacar que, todos los estudios fueron clasificados como investigaciones metodológicas cuando se analizaron sus objetivos; solamente cuatro estudios fueron clasificados como correlacional y uno como descriptivo-correlacional (Tabla 3).
Con base en lo expuesto, se puede sugerir que la evaluación de la consistencia interna demuestra correlaciones entre los ítems, esto quiere decir, cuanto un instrumento es confiable o no. Es de suma importancia evaluar si el instrumento utilizado consigue inferir o medir aquello que se propone, otorgando relevancia para la investigación. El coeficiente α es una medida comúnmente utilizada en la evaluación de la consistencia interna de los cuestionarios para un conjunto de dos o más indicadores de constructo (14).
Según Hora, Monteiro y Arica (18), el uso del coeficiente α en Brasil está básicamente restringido a los estudios en el área de salud, principalmente a la epidemiologia, que frecuentemente utiliza cuestionarios en el levantamiento de datos. En un revisión bibliográfica en las bases de datos SCOPUS y SpringerLink realizada por Matthiensen (22), la mayor utilización del coeficiente α está relacionada al área de la salud (Medicina, Psicología, Enfermería, Ciencias del Comportamiento) seguido de las áreas de las Ciencias Sociales, Negocios y Economía.
En este contexto, es posible afirmar que el uso generalizado y aceptación del coeficiente α en el mundo académico es un factor determinante para su utilización como una herramienta para estimar la confiabilidad (18). La utilización del coeficiente α demuestra ser ventajoso por tres razones: primero, proporciona una medida razonable de confiabilidad en un único test, de modo que repeticiones o aplicaciones de formas paralelas de un test no son necesarias para la estimación de la consistencia del mismo; segundo, su fórmula general permite su aplicación en cuestionarios de opción múltiple y de escala dicotómica o escalas de variables categóricas politómicas; tercero, es fácilmente calculable por los principios estadísticos básicos (22). Bland y Altman (23), destacan que la interpretación directa del coeficiente α también es una ventaja de su uso.
Considerando los criterios de inclusión, fue posible constatar que la mayoría de los estudios se tratan de investigaciones metodológicas, o sea, que presentan como objetivo la construcción de instrumentos y la evaluación de las propiedades psicométricas (validez y confiabilidad), se puede destacar que este tipo de investigación científica propicia el desarrollo, validación y la evaluación de herramientas de nuevos métodos de investigación (54). Además de los avances científicos, la investigación metodológica contribuye a la práctica clínica de los profesionales de la salud humana, ya que puede proporcionar nuevos métodos e instrumentos de evaluación en diversas áreas de la salud. En el estudio metodológico el investigador tiene como meta la elaboración de un instrumento confiable, preciso y útil, y que pueda ser utilizado por otros investigadores y otras personas, como se observa en los estudios incluidos. De este modo, no solamente la comunidad científica puede ser beneficiada, ya que el paciente, principal actor pasa a obtener acceso a nuevos y adecuados instrumentos propios de la práctica en salud.
A pesar de ser ampliamente utilizado, el uso del coeficiente α como estimador de confianza de la metodología utilizada y medida de consistencia interna, posee algunas críticas que deben ser consideradas (55). El primer problema es que el alfa de Cronbach puede ser considerado como una estimación de límite inferior de confiabilidad (lowest bound), y en muchos casos, existe una subestimación exagerada de este, sugiriendo la existencia de alternativas mejores, como los algoritmos relacionados a los mayores límites inferiores (greatest lowest bound) discutidos por Bentler y Woodward en 1980 (56), Jackson y Agunwamba en 1977 (57), Woodhouse y Jackson en 1977 (58), y Guttman en 1945 (59) que proporcionan mayor precisión en la evaluación de respuestas con pocos ítems, mejor control de los elementos involucrados (número de individuos; número de respuestas, entre otros) y gran rapidez en la ejecución de los cálculos, a pesar de ser poco explorados por los programas estadísticos predominantemente utilizados, así como del propio algoritmo del límite inferior (lowest bound) discutido Jackson y Agunwamba (1977) que permite identificar mejor las covarianzas en la matriz en análisis (60). El segundo problema mencionado por los autores es el uso incorrecto del coeficiente α en su interpretación como medida de consistencia interna de un test, así como de la confiabilidad de este mismo. Y, por último, también se verifica una crítica en las situaciones donde la aplicación de un único test de confiabilidad no otorga mucha información sobre la precisión del desempeño individual de los test, con todo, esta crítica no puede ser direccionada al coeficiente α, pero si a la metodología utilizada durante la investigación.
CONSIDERACIONES FINALES
Las discusiones llevadas a cabo en este estudio permiten demostrar el creciente uso del coeficiente alfa como uno de los principales parámetros para la evaluación de consistencia interna de instrumentos de medición de tipo cuestionarios, así como también, permiten confirmar un gran espectro de ellos en el campo de la salud. Este motivo se debe también a su facilidad en la obtención de los resultados, ya que puede ser aplicado una única vez y, puede ser calculado a partir de la sumatoria entre las varianzas individuales y grupales. Por ser extensamente utilizado, la literatura apunta un valor mínimo de 0,70 y los valores preferenciales son entre 0,80 y 0,90, y superior a este valor es caracterizado como redundante en los ítems, lo que aumenta la varianza y, consecuentemente, siendo un valor elevado no significa específicamente una alta consistencia interna. Existe una excepción para las aplicaciones clínicas, las cuales necesitan valores superiores, siendo que el mínimo deseable es de 0,90 hasta 0,95 cuando el objetivo de la investigación es verificar la capacidad de respuesta del tratamiento en los pacientes, contrariamente al objetivo de evaluar los efectos entre los grupos caso y control. Sin embargo, a pesar de su constante utilización como estimador de confianza de la metodología utilizada y medida interna de consistencia, posee algunas críticas que deben ser consideradas, como por ejemplo, la posibilidad de la incorrecta interpretación como una medida de consistencia interna de un test. Por otra parte, el análisis sistemático realizado en los estudios publicados en los últimos dos años, de acuerdo con los criterios de inclusión y exclusión, permiten señalar que el coeficiente α ha sido utilizado principalmente para evaluar la consistencia interna de instrumentos en investigaciones en el área de la salud. Por lo tanto, se destaca la necesidad de realizar nuevos estudios para que se pueda investigar sus limitaciones y reflexionar sobre las soluciones para una correcta utilización, visto que es el estimador de consistencia interna más utilizado, y que además produce datos fundamentales en investigaciones con instrumentos y escalas para transformarlas más confiables.
Conflictos de interés: los autores declaran no tener conflictos de interés.
Fuentes de financiamiento: autofinanciado.
Referencias Bibliográficas
1. Alexandre NMC, Gallasch CH, Lima MHM, Rodrigues RCM. A confiabilidade no desenvolvimento e avaliação de instrumentos de medida na área da saúde. Rev Eletr Enf. 2013;15(3):802-9.
2. Switzer GE, Wisniewski SR, Belle SH, Dew MA, Schultz R. Selecting, developing, and evaluating research instruments. Soc Psychiatry Psychiatr Epidemiol. 1999 Aug;34(8):399-409.
3. Terwee CB, Bot SD, de Boer MR, van der Windt DA, Knol DL, Dekker J, et al. Quality criteria were proposed for measurement properties of health status questionnaires. J Clin Epidemiol. 2007 Jan;60(1):34-42.
4. Keszei AP, Novak M, Streiner DL. Introduction to health measurement scales. J Psychosom Res. 2010 Apr;68(4):319-23. doi: 10.1016/j. jpsychores.2010.01.006.
5. Selby-Harrington ML, Mehta SM, Jutsum V, Riportella-Muller R, Quade D. Reporting of instrument validity and reliability in selected clinical nursing journals, 1989. J Prof Nurs. 1994 Jan-Feb;10(1):47-56.
6. Kimberlin CL, Winterstein AG. Vali- dity and reliability of measurement ins- truments used in research. Am J Health Syst Pharm. 2008 Dec 1;65(23):2276- 84. doi: 10.2146/ajhp070364.
7. Dempsey PA, Dempsey AD. Using nursing research. 5ta ed. Philadelphia: Lippincott Williams & Wilkins; 2000.
8. Polit DF, Hungler BP. Fundamentos de pesquisa em enfermagem. 3ra ed. Porto Alegre: Artes Médicas; 1995.
9. Burns N., Grove SK. The practice of nursing research: conduct, critique & utilization. 3ra ed. Philadelphia: Saunders Company; 1997.
10. Fitzner K. Reliability and validity: a quick review. Diabetes Educ. 2007 Sep- Oct;33(5):775-6, 780.
11. Roberts P, Priest H, Traynor M. Reliability and validity in research. Nursing Standard. 2006;20(44):41-5.
12. De Vet HC, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epidemiol. 2003 Dec;56(12):1137-41.
13. LoBiondo-Wood G, Harber J. Nursing Research: methods, critical appraisal and utilization. 4ta ed. St Louis: Mosby- Year Book; 1998.
14. DeVon HA, Block ME, Moyle-Wright P, Ernst DM, Hayden SJ, Lazzara DJ et al. A psychometric toolbox for testing validity and reliability. J Nurs Scholarsh. 2007;39(2):155-64.
15. Cortina JM. What is coefficient alpha? An examination of theory and application. J Appl Psychol. 1993;78(1):98-104.
16. Schmitt N. Uses and abuses of coefficient alpha. Psychol Assessment. 1996;8(4):350-3.
17. Shevlin M, Miles JNV, Davies MNO, Walker S. Coefficient alpha: a useful indicator of reliability? Pers Individ Differ. 2000:28(2):229-37.
18. De Hora HRM, Monteiro GTR, Arica J. Confiabilidade em questionários para qualidade: Um estudo com o coeficiente alfa de Cronbach. Produto & Produção. 2010;11(2): 85-103.
19. Oviedo HC, Arias AC. Aproximación al uso del coeficiente alfa de Cronbach. Rev Co lomb Psiquiatr. 2005;34(4):572-80.
20. Cronbach LJ. Coefficient alpha and the internal structure of tests. Psychometrika. 1951;16(3):297-334.
21. Cronbach LJ, Shavelson RJ. My current thoughts on coefficient alpha and successor procedures. Educational and Psychological Measurement. 2004;64(3):391-418.
22. Matthiensen A. Uso do coeficiente alfa de cronbach em avaliações por questionários. Publicações Técnico- Científicas da Embrapa Roraima. 2011;1(1):1-31.
23. Bland JM, Altman DG. Cronbach´s alpha. BMJ. 1997 Feb;314(7080):572.
24. Salomi GGE, Miguel PAC, Abackerli AJ. SERVQUAL x SERVPERF: comparação entre instrumentos para avaliação da qualidade de serviços internos. Gest. Prod. 2005;12(2):279- 93.
25. Streiner DL. Starting at the beginning: an introduction to coefficient alpha an internal consistency. J Pers Assess. 2003 Feb;80(1):99-103.
26. Keszei AP, Novak M, Streiner DL. Introduction to health measurement scales. J Psychosom Res. 2010 Apr;68(4):319-23. doi: 10.1016/j.jpsychores.2010.01.006.
27. Thomas JR, Nelson JK, Silverman SJ. Método de pesquisa em atividade física. 6ta ed. Porto Alegre: Artmed; 2012.
28. Tavakol M, Dennick R. Making sense of Cronbach’s alpha. Int J Med Educ. 2011;2:53-5.
29. Almeida D, Santos MAR, Costa AFB. Aplicação do coeficiente alfa de cronbach nos resultados de um questionário para avaliação de desempenho da saúde pública. 30º Encontro Nacional de Engenharia de Produção. 12 al 15 outubro de 2010. São Paulo: ABEPRO; 2010.
30. Krus DJ, Helmstadter GC. The probabilities of negative reliabilities. Educ Psychol Meas. 1993;53:643-50.
31. Norman GR. Issues in the use of change scores in randomized trials. J Clin Epidemiol. 1989;42(11):1097-105.
32. Packer AL, Tardelli AO, Castro RCF. A distribuição do conhecimen- to científico público em informação, comunicação e informática em saúde indexado nas bases de dados MEDLI- NE e LILACS. Ciênc Saúde Coletiva. 2007;12(3):587-99.
33. Falagas ME, Pitsouni EI, Malietzis GA, Pappas G. Comparison of Pubmed, Scopus, Web of Science, and Google Scholar: strenghs and weaknesses. FASEB J. 2008; 22(2):338-42.
34. Mazzotti AJA, Gewandsznajder F. O método nas ciências naturais e sociais: pesquisa quantitativa e qualitativa. 2da ed. São Paulo: Pioneira; 1998.
35. Triviños ANS. Introdução à pesquisa em ciências sociais: a pesquisa qualitativa em educação. São Paulo: Atlas; 1897.
36. Richardson RJ. Pesquisa social: métodos e técnicas. 3ra ed. São Paulo: Atlas; 1999.
37. Paupério A, Severo M, Lopes C, Moreira P, Cooke L, Oliveira A. Could the Food Neophobia Scale be adapted to pregnant women? A confirmatory factor analysis in a Portuguese sample. Appetite. 2014;75:110-6.
38. Sajjadi M, Rassouli M, Abbaszadeh A, Alavi Majd H, Zendehdel K. Psychometric properties of the Persian version of the Mishel’s Uncertainty in Illness Scale in patients with cancer. Eur J Oncol Nurs. 2014 Feb;18(1):52-7. doi: 10.1016/j.ejon.2013.09.006.
39. Cebolla A, Barrada JR, van Strien T, Oliver E, Baños R. Validation of the Dutch Eating Behavior Questionnaire (DEBQ) in a sample of Spanish women. Appetite. 2014 Feb;73:58-64. doi: 10.1016/j.appet.2013.10.014.
40. Jeong HS, Jeong EJ, Yu SY, Lyoo YC, Im JJ, Bae S, et al. Reliability and validity of the Korean Version of the Lifespan Sibling Relationship Scale. Exp Neurobiol. 2013;22(4):330-6.
41. Shahhosseini Z, Abedian K, Jannati Y, Khaki N. Developing an instrument to measure the influential factors on career choice among Iranian nursing students. Iran J Nurs Midwifery Res. 2013 Sep-Oct;18(5):396-401.
42. Tielemans NS, Visser-Meily JM, Schepers VP, Post MW, van Heugten CM. Proactive coping post-stroke: psychometric properties of the Utrecht Proactive Coping Competence Scale. Arch Phys Med Rehabil. 2014 Apr;95(4):670-5. doi: 10.1016/j. apmr.2013.11.010.
43. Yorke J, Armstrong I. The assessment of breathlessness in pulmonary arterial hypertension: reliability and validity of the Dyspnoea-12. Eur J Cardiovasc Nurs. 2014 Dec;13(6):506-14. doi: 10.1177/1474515113514891.
44. Zhou K, Zhuang G, Zhang H, Liang P, Yin J, Kou L, et al. Psychometrics of the Short Form 36 Health Survey Version 2 (SF-36v2) and the Quality of Life Scale for Drug Addicts (QOL-DAv2.0) in Chinese Mainland Patients with Methadone Maintenance Treatment. PloS One. 2013 Nov 20;8(11):e79828. doi: 10.1371/journal.pone.0079828.
45. Mohammadi N, Kian S, Davoudi F, Nia SMAA, Nojomi M. Psychometric evaluation of the Persian version of the quality of life in epilepsy inventory-31. Ir J neurol. 2013;12(4):144-8.
46. Bekhet AK, Zauszniewski JA. Psychometric properties of the resourcefulness scale among caregivers of persons with autism spectrum disorder. West J Nurs Res. 2014 May;36(5):685-702. doi: 10.1177/0193945913509141.
47. Hurley KM, Pepper MR, Candelaria M, Wang Y, Caulfield LE, Latta L, et al. Systematic development and validation of a theory-based questionnaire to assess toddler feeding. J Nutr. 2013 Dec;143(12):2044-9. doi: 10.3945/jn.113.179846.
48. Gava EC, Miguel JA, de Araújo AM, de Oliveira BH. Psychometric properties of the Brazilian version of the Orthognathic Quality of Life Questionnaire. J Oral Maxillofac Surg. 2013 Oct;71(10):1762.e1-8. doi: 10.1016/j.joms.2013.05.020.
49. Beauger D, Gentile S, Jouve E, Dussol B, Jacquelinet C, Briançon S. Analysis, evaluation and adaptation of the ReTransQoL: a specific quality of life questionnaire for renal transplant recipients. Health Qual Life Out. 2013;11:148.
50. Lozano FS, March JR, González- Porras JR, Carrasco E, Lobos JM, Areitio-Aurtena A. Validation of the Walking Impairment Questionnaire for Spanish patients. Vasa. 2013 Sep;42(5):350-6. doi: 10.1024/0301- 1526/a000300.
51. Iliceto P, Fino E, Cammarota C, Giovani E, Petrucci F, Desimoni M et al. Factor Structure and Psychometric Properties of the Italian Version of the Gambling Related Cognitions Scale (GRCS-I). J Gambl Stud. 2015 Mar;31(1):225-42. doi: 10.1007/ s10899-013-9405-6.
52. Kato N, Kinugawa K, Nakayama E, Hatakeyama A, Tsuji T, Kumagai Y, et al. Development and psychometric properties of the Japanese heart failure knowledge scale. Int Heart J. 2013;54(4):228-33.
53. Rebolledo DC, Seguel Vissoci JRN, Pietrobon R, de Camargo OP, Baptista AM. Validation of the Brazilian version of the musculoskeletal tumor society rating scale for lower extremity bone sarcoma. Clin Orthop Relat Res. 2013 Dec;471(12):4020-6. doi: 10.1007/ s11999-013-3211-4.
54. Polit DF, Beck CT. Fundamentos de pesquisa em enfermagem: avaliação de evidências para as práticas da enfermagem. 7ma ed. Porto Alegre: Artmed; 2011.
55. Sijtsma K. On the use, the misuse, and the very limited usefulness of cronbach’s alpha. Psychometrika. 2009;74(1):107-20.
56. Bentler PM, Woodward JA. Inequalities among lower bounds to reliability: with applications to test construction and factor analysis. Psychometrika. 1980;45(2):249-67.
57. Jackson PH, Agunwamba CC. Lower bounds for the reliability of the total score on a test composed of non- homogeneous items I: Algebraic lower bounds. Psychometrika. 1977;42(4):567-78.
58. Woodhouse B, Jackson PH. Lower bounds for the reliability of the total score on a test composed of non- homogeneous items: II: A search procedure to locate the greatest lower bound. Psychometrika. 1977;42(4):579-91.
59. Guttman L. A basis for analyzing test-retest reliability. Psychometrika. 1945;10(4):255-82.
60. Bendermacher N. Beyond Alpha: Lower Bounds for the Reliability of Tests. Journal of Modern Applied Statistical Methods. 2010;9(1):95-102.
Correspondencia: Franciele Cascaes da Silva Dirección: Laboratorio de Actividad Motora Adaptada (LABAMA), Calle Pascoal Simone 358-Coqueiros, Santa Catarina, Brasil.
Teléfono: (+55) 48 3321 8651
Correo electrónico: francascaes@yahoo.com.br
Recibido: 14-08-14
Aprobado: 11-02-15