Cuaderno de actividades 1º

 

Nota: El tema también está  en formato pdf o se puede descargar el documento de Word

 

 Variables estadísticas bidimensionales.

En numerosas ocasiones interesa estudiar simultáneamente dos (o más) caracteres de una población. En el caso de dos (o más) variables estudiadas conjuntamente se habla de variable bidimensional  (multidimensional );  si se trata de dos caracteres cualitativos, de par de atributos.

Si de una cierta población se estudian dos caracteres simultáneamente se obtienen dos series de datos.

Individuos

       A

       B

        C

.......

Carácter  X

     x1

      x2

       x3

........

Carácter   Y

      y1

      y2

       y3

..........

 

La lista de pares de datos correspondientes a cada individuo de la población (repetidos o no), es lo que llamamos variable estadística bidimensional.

Ejemplo 1. A cada uno de los reclutas de un reemplazo se les talla y pesa. Se trata de dos variables cuantitativas.

 

  x( tallas en m )

      1,70   

    1,69

     1,68

 1,70

........

 y( peso en kg )

       75

     70

      66

 67 

.........

 

Ejemplo 2. Entre los empleados de una empresa se ha realizado una encuesta sobre el consumo del tabaco, que ha arrojado los siguientes resultados:

 

                              Hábito

Sexo

 

Fumadores

 

No fumadores

 

Totales de filas

Varones

Mujeres

    49

    43

       64

       37

   113

     80

Totales de columnas

     92

      101

 Total general  193

 

Nota. En este tema nos limitaremos al estudio de caracteres cuantitativos discretos, puesto que si el carácter es continúo o discreto agrupado en intervalos, se trabajará con las marcas de clase.

 

2. Distribuciones de frecuencias.

Se disponen las frecuencias en una tabla de doble entrada donde las xi  y la yj están ordenadas en forma creciente. Recibe el nombre de tabla de frecuencias o tabla de correlación.

Si hay  pares que se repiten se agrupan siendo nij la frecuencia absoluta del par (xi, yj).

Las sumas:

 

ånij = ni , frecuencia absoluta de xi.

 j

ånij = n’j , frecuencia absoluta de yj

    i    

se llaman frecuencias absolutas marginales de las variables X e Y respectivamente.

åånij = N = número total de pares.

 j  i

                     X

    Y

x1

x2

.......

xk

Frec. absolutas

marginales de Y

    y1

n11

n21

.....

nk1

 n’1

 

    y2

n12

n22

......

nk2

 n’2

 

......

.....

....

....

...

....

.

    yr

 

n1r

n2r

...

nkr

   n’r

Frec. absolutas

marginales de X

n1

n2

..

nk

åånij = N

            i  j

 

En la práctica algunas de las nij puede ser cero. En tal caso la casilla correspondiente se dejará en blanco.

Ejemplo 3. Dada la distribución bidimensional:

 

X

1

2

1

2

3

2

2

2

3

1

Y

3

5

2

3

5

4

3

5

5

3

 

la tabla correspondiente es:

 


                    X

    Y

1

2

 

3

 

Frec. absolutas marginales de y

    2

1

 

 

1

    3

2

2

 

4

    4

 

1

 

1

    5

 

2

2

4

Frec. absolutas marginales de X

3

5

2

N=10

 

u Al estudiar una variable bidimensional se obtienen varias distribuciones unidimensionales, según se consideren las filas o las columnas de la tabla en estudio. 

Las distribuciones unidimensionales del total de los individuos de la población, respecto a cada una de las características reciben el nombre de distribuciones marginales.

Distribución marginal de la Y:

 

Y

 

Frec. absolutas marginales de Y

y1

y2

.

.

yr

n’1

n’2

.

.

n’r

 

 

Análogamente la distribución marginal de la X

Ejemplo 4.

Obtener  la distribución marginal de la variable X.

X

Frec. absolutas marginal de X

1

2

3

3

5

2

 

u Si en la tabla de correlación consideramos la primera columna y una columna intermedia , la correspondiente a yj, se obtiene una distribución unidimensional que llamaremos distribución condicionada de la variable X por la modalidad yj de la variable Y.

 

 

X

 

Frec. absolutas condicionadas por yj

x1

x2

.

.

xk

 

n1j

n2j

.

.

nkj

 

 Análogamente se define la distribución condicionada de la variable Y por la modalidad xi  de la variable X.

Ejemplo 5.

Obtener la tabla de la distribución condicionada de la variable Y por la modalidad x2.

 

 

Y

Frec. absolutas condicionadas por x2

2

3

4

5

0

2

1

2

 

 

3. Representaciones gráficas.

Consideremos la distribución:

x1

x2

.....

xN

y1

y2

.......

yN

 

( Los  pares pueden estar repetidos )

Los pares de valores observados (xi , yj) se pueden representar en unos ejes de coordenadas,.

                                                    x ®

El conjunto de puntos que resulta se llama diagrama de dispersión o nube de puntos de la distribución bidimensional.

Cuando  el número de datos es grande (se usa una tabla de doble entrada) los datos se representan con un diagrama de dispersión reticulado de tal manera que la visión de la nube de puntos indique realmente cómo es la distribución.

En estos casos también se suele usar un diagrama de barras sobre un sistema cartesiano de tres dimensiones (estereogramas).

Ejemplo 6.

Hacer el diagrama de dispersión de la distribución del ejemplo 3. 

Ejercicio 1. Dibuja el estereograma correspondiente .

 

4. Parámetros de la variable estadística bidimensional.

 

 

Considerando las distribuciones marginales, como son unidimensionales es posible calcular los siguiente parámetros:

Llamadas medias marginales.

Nota. En una distribución bidimensional al punto (x, y ) se le llama centro de gravedad de la distribución.

b) Varianzas

Se define:

(Es decir la “media del cuadrado menos el cuadrado de la media”)

Análogamente la varianza marginal de la variable Y. De ellas  (extrayendo la raíz cuadrada ) se obtienen las correspondientes desviaciones típicas.

Ejemplo 7. Calcula las medias marginales y las Varianzas de la v.e.del ejemplo 3.

Solución  x = 19/10=1,9 ; y =38/10= 3,8 ; Sx2= 4,1-(1,9)2= 0,49 ; Sy2= 15,6 - 14,44=1.16.

 c) Covarianza

Para las variables estadísticas bidimensionales se define la  “ covarianza ’’ como la media aritmética de los productos de las desviaciones respecto de la media de cada una de las variables componentes.

Es decir:

Se demuestra que

 

propiedad que facilita el cálculo de la covarianza. (Ver problema resuelto 2)

Ejempl 8.   Calcula la covarianza de la distribución del ejemplo 3.

Solución :

Sxy =   - (1,9)·(3,8) = 0,58.

 

4. Regresión lineal.

Al considerar los dos caracteres de una variable bidimensional  puede ocurrir.

Y Que exista una dependencia funcional entre ellos, de tal manera que a cada valor le corresponda un único valor del otro. Ejemplo: la temperatura a la que calentamos una barra de hierro y la longitud alcanzada.

Y Que haya una dependencia estadística o correlativa, de tal manera que los valores sigan unas pautas similares. Por ejemplo el número de horas de estudio y las notas obtenidas.

Y Que se de una independencia entre los caracteres. Por ejemplo la estatura y las calificaciones en Matemáticas.

El estudio de la relación entre dos caracteres de una variable estadística bidimensional es el objeto de la regresión lineal.

La nube de puntos de una distribución bidimensional nos da una primera idea de la relación existente entre los datos de la misma.

Cuando la nube de puntos del diagrama de dispersión permita deducir algún tipo de dependencia entre las dos variables X, Y, concentrándose los puntos alrededor de una cierta línea (línea de regresión) se plantean dos cuestiones:

A) Definir la línea.

B)  Medir el nivel de aproximación de dicha línea.

Sí la línea es una recta  , el problema es un caso típico de regresión lineal.

A) Rectas de regresión.

Se llama recta de regresión a aquella que mejor se ajusta a la nube de puntos.

El procedimiento más usado, para hallar dicha recta, es el los mínimos cuadrados.

Se calcula la recta :

y = ax + b,        de tal manera que :

S=å [yi - (a xi + b )]2            sea mínima

El cálculo de a y b  incluye conocimientos que no se dan en este nivel[1] por lo que sólo daremos el resultado:

Se verifica:

a= Sxy                  b= y - Sxy   x        

     Sx2                                    Sx2

 

luego se puede escribir :

y=  Sxy    x  +  y - Sxy   x     o lo que es igual:   y - y = Sxy   ( x - x )  .

      Sx2                   Sx2                                                                               Sx2

Esta es la ecuación de la recta de regresión de Y sobre X.  Sirve para hacer estimaciones  o predicciones de los valores de Y conocidos los de X.

Análogamente  la recta de regresión de X sobre Y tiene por ecuación:

x - x = Sxy  (y - y )

                 Sy2

A  myx Sxy            y      m xy  =    Sxy          se les llama los coeficientes de regresión

                    Sx2                                             Sy2

Ejemplo 10.   Hallar las rectas de regresión para la distribución del ejemplo 3.

Solución:  recta de regresión de Y sobre X      y - 3,8 = 1,18 (x- 1,9)

                 recta de regresión de  X  sobre Y     x - 1,9 = 0,5 ( y - 3,8 ).

Nota. Daremos sin demostración algunas propiedades del coeficiente de regresión que facilitan los cálculos de estos, pues permiten hacer un cambio de variable.

Propiedades del coeficiente de regresión:

1) Si se suma o resta una constante a todos los valores de X o de Y el coeficiente de regresión myx   no varía.

2) Si se multiplican todos los valores de X por una constante, el coeficiente de regresión queda dividido por esa constante.

Si se multiplican todos los valores de y por una constante, el coeficiente de regresión myx  queda multiplicado por es constante.

Ejemplo 11.  Consideramos la tabla:

 

1980

430000

1983

450000

1986

475000

1989

500000

 

Si hacemos  X’= ,  Y’ =

Se obtiene:

0

-20

1

0

2

25

3

50

 

Para la variable X’ ,Y’ es más fácil el cálculo del coeficiente de regresión y la relación entre éste y el de XY es:

m’yx  = 

B) Correlación lineal.

Se entiende por correlación la dependencia que existe entre las variables de una distribución., cuando ésta es, en cierta forma, lineal se habla de correlación lineal.  Cuando  no existe tal dependencia se dice que las variables están incorreladas.

Para medir, de una forma cuantitativa, dicha dependencia se utiliza el llamado coeficiente de correlación lineal, o de Pearson, que se define así:

r =

El signo es +  si  la covarianza es positiva y  - si es negativa..

Propiedades de r

a) -1r 1

b) Si r es positivo la correlación es directa, es decir, al aumentar una variable también aumenta la otra (coeficiente de regresión positivo). En este caso las pendientes de las rectas de regresión son positivas.

 

       . .  

  .   .

.  .

     .  .

  .  .

 

Si r es negativo la correlación es inversa, es decir, al aumentar una variable disminuye la otra. En este caso las pendientes de la rectas de regresión son negativas.

c) Si r2 = 1, es decir, r igual a 1 o a -1, las dos rectas de regresión coinciden y la nube de puntos está contenida en la recta (correlación perfecta). Hay dependencia funcional entre las variables.         

d) Si r = 0  las rectas de regresión son perpendiculares entre sí y paralelas a los ejes. Las variables  son incorreladas.

 

 


Para los demás valores de r la dependencia es tanto más fuerte cuanto más próximo esté a 1 o a -1. Será más débil cuando se aproxime a 0:

Para la correlación directa:

 Si    0,75£