Metodología de Investigación

de La Página del Profe

 

METODOLOGÍA con

Eduardo Escalante G.

 

 

ANÁLISIS DE DATOS CUANTITATIVOS

 

Anteriormente ya han visto la forma de analizar datos descriptivos, correspondientes a la estadística descriptiva, para lo que se recomendó trabajar en MINITAB o EXCEL, si es que Ud. no se ha introducido en el SPSS, entre otros software de análisis estadísticos.

En esta sección veremos algunos de los más corrientes aspectos del análisis de datos cuantitativos correspondientes a la estadística inferencial, como son los análisis paramétricos y no paramétricos.

 

ANALISIS PARAMETRICO Y NO PARAMÉTRICO

Un parámetro[1] es un dato que es tomado como necesario para analizar o valorar una situación. A partir del parámetro, una determinada circunstancia puede entenderse o situarse en perspectiva. Por ejemplo: “Si nos basamos en los parámetros habituales, resultará imposible comprender esta situación”, “El paciente está evolucionando de acuerdo a los parámetros esperados”, “Estamos investigando pero no hay parámetros que nos permitan establecer una relación con el caso anterior”, “La actuación del equipo en el torneo local es el mejor parámetro para realizar un pronóstico sobre su participación en el campeonato mundial”.

Para las matemáticas, un parámetro es una variable que permite identificar, en una familia de elementos, a cada uno de ellos mediante su valor numérico.

Un parámetro estadístico es una función definida sobre los valores numéricos de una población. Se trata, por lo tanto de un valor representativo que permite modelizar la realidad.

La utilidad de los parámetros estadísticos se encuentra ante la dificultad para manejar una gran cantidad de datos individuales de una misma población. Este tipo de parámetros permite obtener un panorama general de la población y realizar comparaciones y predicciones.

En las ciencias de la computación, un parámetro es una variable que puede ser recibida por una rutina o una subrutina (que utilizan los valores asignados a un parámetro para modificar su comportamiento en el tiempo de ejecución).

La parametrización de una base de datos, por otra parte, es la organización y estandarización de la información que se ingresa en un sistema. De esta forma, es posible realizar distintos tipos de consulta y obtener resultados fiables.

A continuación se muestra una tabla en que se clasifican las variables como paramétricas y no paramétricas:

Ejemplos de variables

Variable

dimensión

código

Observaciones.

Genero

hombre

1

Variable nominal. El código esta expresado en número que no se puede sumar; son excluyentes

 

mujer

2

Comuna

Norte

1

Variable nominal.  Se ubica la comuna del lugar de residencia y se asigna el código teniendo como base de clasificación los puntos cardinales para la comuna de Santiago y empleados por el Sistema Nacional de Servicios de Salud y de Educación.

Los códigos no se suman;

 

sur

2

 

Poniente

3

 

Oriente

4

 

Sur Oriente

5

edad

años

 

Variable paramétrica u ordinal; el número significa años de edad; se puede sumar.

Notas

Número de 1 a 7

 

Variable ordinal. Los códigos se pueden sumar y cada valor tiene un significado

Colegio

Municipal

1

Variable nominal o no paramétricas 

 

Particular subvencionado

2

 

Particular

3

 

otro

4

 

Los métodos de estadística inferencial presentados a través del curso, son llamados métodos paramétricos porque ellos son basados en muestreo de una población con parámetros específicos, como la media (µ), la desviación estándar (σ) o la proporción (p).  Estos  métodos paramétricos usualmente tienen que ajustarse a algunas condiciones completamente estrictas, así como el requisito de que los datos de la muestra provengan de una población normalmente distribuidas.[2] 

Las pruebas paramétricas requieren supuestos acerca de la naturaleza o forma de las poblaciones involucradas.  Las pruebas no paramétricas no requieren estos supuestos.  Consecuentemente, las pruebas no paramétricas de hipótesis son frecuentemente llamadas pruebas de libre distribución.

 

PRUEBAS PARAMÉTRICAS

Se llaman así porque su cálculo implica una estimación de los parámetros de la población con base en muestras estadísticas. Mientras más grande sea la muestra más exacta será la estimación, mientras más pequeña, más distorsionada será la media de las muestras por los valores raros extremos.

San valores numéricos dados.

Los análisis paramétricos partes de los siguientes supuestos:

1.       La distribución poblacional de la variable dependiente es normal: el universo tiene distribución normal.

2.       El nivel de medición de las variables es por intervalos de razón.

3.       Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea: las poblaciones en cuestión poseen una dispersión similar en sus distribuciones.

Como estos criterios son muy rigurosos, algunos investigadores sólo basan sus análisis en el tipo de Hi y los niveles de medición de las variables.

Las pruebas paramétricas  más utilizadas son (HFB2):

·         Coeficiente de correlación de Pearson y regresión lineal.

·         Prueba t.

·         Prueba de contraste de las diferencias de proporciones.

·         Análisis de varianza unidireccional (ANOVA en un solo sentido o oneway)

·         Análisis de Varianza factorial (ANOVA)

·         Análisis de covarianza (ANCOVA)

 

Descripción. (Otra lista de pruebas paramétricas):[3]

·         Prueba del valor Z de la distribución normal

·         Prueba T de Student para datos relacionados (muestras dependientes)

·         Prueba T de Student para datos no relacionados (muestras independientes)

·         Prueba T de Student-Welch para dos muestras independientes con varianzas no homogéneas

·         Prueba de ji cuadrada de Bartlett para demostrar la homogeneidad de varianzas

·         Prueba F (análisis de varianza o ANOVA)

El coeficiente de Correlación de Pearson (r)

Es una prueba estadística para analizar la relación entre dos variables medidas en un nivel por intervalos o de razón.

Prueba Hi del tipo de “A mayor X, mayor Y”; “A mayor X, menor Y”; etc.

La prueba en si no considera a una como independiente y la otra como dependiente, porque no evalúa la causalidad, solo la relación mutua (correlación).

El coeficiente[4] se calcula a partir de las puntuaciones obtenidas en una muestra de dos variables. Se relacionan las puntuaciones obtenidas de una variable con las puntuaciones obtenidas de otra variable, en los mismos sujetos.

Mide niveles de variables de intervalo o de razón.

Puede variar de -1,00 a +1,00

(HFB2: 377)

Ejemplo de la (co)relación entre la variable “estatura” y “peso” de alumnos de Ing. Comercial en clases el 12.2011.  (Calculo obtenido con Excel).

ESTATURA

PESO

1,72

98

1,64

65

1,84

98

1,66

65

1,63

70

1,70

105

1,82

110

 

 

r = 

0,79

Correlación positiva considerable

 

 

 

 


Regresión lineal

Es modelo matemático para estimar el efecto de una variable sobre otra. Está asociado con el coeficiente r de Perason.

Sirve para resolver Hi correlacionales y causales.

Mide variables de Intervalos y de razón.

La regresión lineal se determina con base al diagrama de dispersión.  Este consiste en una gráfica donde se relacionan las puntuaciones de una muestra en dos variables, como la de estatura y peso del ejemplo anterior.

Gráfica de dispersión simple

 

Gráfica de dispersión con regresión lineal. Correlación positiva muy fuerte, tendencia ascendente con altas puntuaciones en X y altas puntuaciones en Y. Obtenidas con MINITAB.

 


 

Prueba “t” (paramétrica)

En estadística, una prueba t de Student[5], prueba t-Student, o Test-T es cualquier prueba en la que el estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la población se asume ser normal pero el tamaño muestral es demasiado pequeño como para que el estadístico en el que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de la desviación típica en lugar del valor real.

En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra. (Wikipedia)

Es una prueba estadística para evaluar si dos grupos difieren estadísticamente entre sí, de manera significativa respecto a sus medias (HFB384).  Es una prueba apropiada para comparar los promedios de dos grupos, y especialmente apropiado como análisis para el diseño experimental de solo postest de dos grupos al azar.

Mide variables de intervalo o de razón.

t student.jpg
Distribución ideal para valores de post test de grupos tratados (en experimento) y de comparación.

Sirve para medir Hi de diferencia entre dos grupos.  La Hi propone que los grupos difieren significativamente entre sí y la Hn propone que los grupos no difieren significativamente.

La comparación se realiza sobre una variable. Si hay diferentes variables, se efectuarán varias pruebas “t” (una para cada variable). Aunque la razón que motiva la creación de los grupos puede ser una variable independiente. Por ejemplo: un experimento con dos grupos, uno al cual se le aplica el estímulo experimental y el otro grupo el de control.

 

viariabilidad t.jpg

Tres escenarios para diferencias de promedios

El valor “t” se obtiene de muestras grandes mediante la fórmula:

viariabilidad t2.jpg

Muy usado para medir performances, rendimientos, posibilidades de ganar para dos o más corredores de carreras de autos y otras situaciones en que hay que compara rendimientos promedios. Tendencias por un candidato en dos comunas.

El ejemplo de HFB2 es “Hi: “Los varones le atribuyen mayor importancia al atractivo físico en sus relaciones heterosexuales que las mujeres”. (385)

Hi: Los profesionales jóvenes prefieren vivir en departamento en vez de casas.

Hi:  ¿Linux Vs. Microsoft?

 

 


 

Coeficiente rho de Spearman

Es un coeficiente para medir el grado de asociación entre dos variables ordinales cuyos valores indican rangos en cada una de ellas.  Rho toma el valor +1 cuando existe igualdad de rangos de los casos en las dos variables y -1 cuando tienen rangos exactamente opuestos.  Los valores intermedios pueden ser interpretados según sus magnitudes relativas. Su fórmula de cálculo es:

En la cual:

D = diferencia de rangos en las dos variables, o, diferencia entre los correspondientes estadísticos de orden de x - y.

N = número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student.

t = \frac{\rho}{\sqrt{(1-\rho^2)/(n-2)}}

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Ejercicio: A un grupo de 10 vendedores se les asigna rangos según la cantidad de ventas y el rango de tiempo en hacerlo.  Se desea saber si existe asociación entre las dos variables.

Vendedor

Rango de ventas

Rango de tiempo

D

D2

1

2

3

4

5

6

7

8

9

10

1

2

3

4

5

6

7

8

9

10

1

3

4

5

8

4

9

6

2

7

0

-1

-1

-1

-3

2

-2

2

7

3

 

0

1

1

1

9

4

4

4

49

9

 

 

 

82

Colocados los valores en la fórmula se tiene:

= 0.50

Respuesta al problema: existe asociación positiva medianamente alta entre el rango de ventas y tiempo empleado.

Ejercicio: diferencias de notas entre dos asignaturas, en un curso.

 


 

 

ANÁLISIS NO PARAMETRICOS.

Qué es un análisis no paramétrico.

Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre (distribution free). En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.

Según Wikipedia: La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.

Aunque el término no paramétrico sugiere que la prueba no está basada en un parámetro, hay algunas pruebas no paramétricas que dependen de un parámetro tal como la media.  Las pruebas no paramétricas, sin embargo, no requieren una distribución particular, de manera que algunas veces son referidas como pruebas de libre distribución.  Aunque libre distribución es una descripción más exacta, el término no paramétrico es más comúnmente usado.  Las siguientes son las mayores ventajas y desventajas de los métodos no paramétricos.[6]

Ventajas de los Métodos No Paramétricos

1.       Los métodos no paramétricos pueden ser aplicados a una amplia variedad de situaciones porque ellos no tienen los requisitos rígidos de los métodos paramétricos correspondientes.  En particular, los métodos no paramétricos no requieren poblaciones normalmente distribuidas.

2.       Diferente a los métodos paramétricos, los métodos no paramétricos pueden frecuentemente ser aplicados a datos no numéricos, tal como el género de los que contestan una encuesta.

3.       Los métodos no paramétricos usualmente involucran simples computaciones que los correspondientes en los métodos paramétricos y son por lo tanto, más fáciles para entender y aplicar.

Desventajas de los Métodos No Paramétricos

1.       Los métodos no paramétricos tienden a perder información porque datos numéricos exactos son frecuentemente reducidos a una forma cualitativa.

2.       Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, de manera que con una prueba no paramétrica generalmente se necesita evidencia más fuerte (así como una muestra más grande o mayores diferencias) antes de rechazar una hipótesis nula.

 Cuando los requisitos de la distribución de una población son satisfechos, las pruebas no paramétricas son generalmente menos eficientes que sus contrapartes paramétricas, pero la reducción de eficiencia puede ser compensada por un aumento en el tamaño de la muestra.

Según HFyB, Para realizar análisis no paramétricos debe partirse de las siguientes consideraciones:

1.       La mayoría de estos análisis no requiere n de presupuestos acerca de la forma de la distribución poblacional.  Aceptan distribuciones no normales.

2.       Las variables no necesariamente deben estar medidas en un nivel para intervalos o de razón, pueden analizar datos nominales u ordinales.  De hecho, si se quiere aplicar análisis no paramétricos a datos de intervalos o razón, éstos deben ser resumidos a categorías discretas (a unas cuantas). Las variables deben ser categóricas.

Métodos o pruebas estadísticas no paramétricas más utilizados.

·         La ji cuadrada o x2

·         Los coeficientes de correlación en independencia para tabulaciones cruzadas.

·         Los coeficientes de correlación por rangos ordenados de Spearman y Kendall.

La ji cuadrada o X2 

Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables categóricas.

Sirve para probar Hi correlacionales.

Mide variables nominales u ordinales (o intervalos o razón reducidas a ordinales)

 

Ejemplo: Presentación o en su defecto, no presentación, de un aviso publicitario y compra o no compra de un producto.

Ejemplo: Un corredor de propiedades quiere saber qué tipo de vivienda prefieren los profesionales. Se le pregunta a un grupo de profesionales sobre sus preferencias de vivienda (casa o departamento) y si prefiere vivir en Temuco o en Villarrica - Pucón. 

 

Vivienda que posee / prefiere

 

 Dónde

departamento

casa

Temuco

(a)                18

(b)                  10

(a+b) 28

Villarrica-Pucón

(c)                19                 

(d)                  28

(c+d) 47

 

(a+c)             37

(b+d)              38

     N:  75

 

Para ingresarlo al Minitab hay que reducir la tabla con códigos:

 

d

c

1

18

10

2

19

28

 

 

 

MINITAB:

Los conteos esperados se imprimen debajo de los conteos observados

Las contribuciones Chi-cuadradas se imprimen debajo de los conteos esperados

 

           d      c  Total

    1     18     10     28

       13,81  14,19

       1,269  1,236

 

    2     19     28     47

       23,19  23,81

       0,756  0,736

 

Total     37     38     75

 

Chi-cuadrada = 3,996; GL = 1; Valor P = 0,046

Comentario de H,FyB: Cuando al calcular X2 se utiliza un paquete estadístico de computadora, el resultado de X2 se proporciona junto con sus significancia, si ésta es menor a .05 o a .01, se acepta la Hi.

Puede haber tres o más filas.

Ejercicio:

Puesto que el ejemplo anterior es imaginado, sería interesante saber si es verdad. La Hi de investigación es que los profesionales jóvenes (menores de 40 años) prefieren vivir en Departamento en Temuco (no tiene patio que moleste) pero prefieren Casa en Villarrica-Pucón (tiene patio para tomar el sol o recibir visitas y hacer asados). Averiguarlo entrevistando a tantos profesionales como se pueda en la semana y calcularlo con X2.

Otro ejercicio:

Averiguar si los profesionales jóvenes (menores de 40 años) prefieren vivir en departamento o casa, separándolos por sexo. Establecer la Hi y la Hn. Resolver con X2 en Minitab.

Otros ejercicios: Preferencias entre PCs (escritorio/notebook; notebook/netbook; portátil/tablet).

 

Coeficiente phi (fi) o Ø , (de 2x2)

El coeficiente Phi (también llamado coeficiente de correlación de cuatro campos) Ø  (también \widehat{r_\phi}) es una medida para la intensidad de la relación entre variables dicotómicas (Wikipedia). Este coeficiente se aplica a cuadros confeccionados con variables con dicotomías claramente establecidas que definen cuadros de 2x2.

El coeficiente Phi nos permite evaluar el grado de asociación entre dos variables, pero sólo está normalizada, es decir oscila entre 0 y 1 en tablas de 2X2, en tablas con otras características toma valores >1. En estos casos lo recomendable es utilizar el Coeficiente de Contingencia.

Por ejemplo:

 

Situación “X”

 

“Y”

Damas

Varones

Si-compran

(a)

(b)

(a+b)

No-compran

(c)

(d)

(c+d)

 

(a+c)

(b+d)

 

  Se aplica la fórmula phi:

Los datos son altamente interpretables ya que el coeficiente Phi se usa para datos nominales y ordinales, donde varía su interpretación de acuerdo a los datos de las variables dicotómicas.

El coeficiente oscila entre los valores +1 y -1 siendo 0.50 el equilibrio perfecto. Asociación positiva perfecta es (+1) cuando todos los individuos que se ubican en una categoría equivalente de otra variable, por ejemplo Todos los “si” son damas y todos los “no” son varones. El valor (-1) indica asociación negativa perfecta, lo que quiere decir que las personas que pertenecen a una cierta categoría en una variable se ubican en una categoría contraria en otra, en datos ordinales.

Ejercicios: Dónde pasarían sus vacaciones: playa Vs. cordillera, por sexos.

Preferencias por dos productos de igual calidad, por edad, educación u otro. 

 

 

 


 

Biobliografía

Hernández, Fernandez y Baptista, Metodología de Investigación, Ediciones 2º y5ª.

Briones, Guillermo, Análisis e Interpretación de Datos, SECAB, 1992.

Briones, Guillermo, (1996) Metodología De La Investigación Cuantitativa En Las Ciencias Sociales,  ICFES, Colombia.

Edgardo  José  Avilés-Garay, Estadística no paramétrica, pdf.

Wikipedia

 EFB2:406; EFB5: 329

 

 

 

 

 

 

 

 


[2] Edgardo  José  Avilés-Garay, Estadística no paramétrica, pdf.

[4]   Número que indica la cantidad de veces por las que debe multiplicarse una expresión matemática: en la expresión 8x, el 8 es el coeficiente.    Número que expresa el valor de una propiedad o un cambio en relación con las condiciones en que se produce: el coeficiente de dilatación de los cuerpos es la relación que existe entre la longitud o el volumen de un cuerpo y la temperatura. Wikipedia.

[5] Historia: La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación de artículos científicos debido a una difusión previa de secretos industriales. De ahí que Gosset publicase sus resultados bajo el seudónimo de Student.

[6] Edgardo  José  Avilés-Garay, Estadística no paramétrica, pdf.