miércoles, 10 de junio de 2015

1.2

Medidas de tendencia central

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.

La media aritmética

La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos.
Por ejemplo, las notas de 5 alumnos en una prueba:
niño     nota
1       6,0    ·Primero, se suman las notas:
2       5,4        6,0+5,4+3,1+7,0+6,1 = 27,6
3       3,1    ·Luego el total se divide entre la cantidad de alumnos:
4       7,0         27,6/5=5,52
5       6,1    
· La media aritmética en este ejemplo es 5,52
La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos.2 Se le llama también promedio o, simplemente, media.

Definición formal

Dado un conjunto numérico de datos, x1x2, ..., xn, se define su media aritmética como
 \overline{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{\sum_{i=1}^n x_i}{n}
Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es, también puede calcularse para variables agrupadas en intervalos.

Propiedades

Las principales propiedades de la media aritmética son:3
  • Su cálculo es muy sencillo y en él intervienen todos los datos.
  • Su valor es único para una serie de datos dada.
  • Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.
  • Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:
 \frac{\sum_{i=1}^n (x_i-\overline{x})}{n} = \frac{\sum_{i=1}^n x_i}{n} - \frac{\sum_{i=1}^n \overline{x}}{n} = \overline{x} - \overline{x} = 0
  • Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es, el valor de  \frac{\sum_{i=1}^n (x_i-k)^2}{n} es mínimo cuando k = \overline{x}. Este resultado se conoce comoTeorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más importantes: la varianza.
x_i' = ax_i+b entonces \overline{x'} = a \overline{x} + b, donde \overline{x'} es la media aritmética de los x_i', para i = 1, ..., n y a y b números reales.

Inconvenientes de su uso

Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son:
  • Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren.
http://upload.wikimedia.org/wikipedia/commons/thumb/b/b3/Estatura_media.svg/300px-Estatura_media.svg.png

La estatura media como resumen de una población homogénea (abajo) o heterogénea (arriba).
  • Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media.4 Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor que representa fielmente a esta población homogénea. Sin embargo, un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes.
  • En el cálculo de la media no todos los valores contribuyen de la misma manera. Los valores altos tienen más peso que los valores cercanos a cero. Por ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de tiene tanto peso como el de diez empleados "normales" que ganen 1.000 €. En otras palabras, se ve muy afectada por valores extremos.
  • No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

Media aritmética ponderada

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada.
Si x_{1},x_{2},..., x_{n} son nuestros datos y w_{1},w_{2},..., w_{n} son sus "pesos" respectivos, la media ponderada se define de la siguiente forma:
\frac{x_{1}w_{1}+x_{2}w_{2}+ ...+x_{n}w_{n}}{w_{1}+w_{2}+ ...+w_{n}}

Media muestral

Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmética se calcula para unsubconjunto de la población objeto de estudio.
La media muestral es un parámetro de extrema importancia en la inferencia estadística, siendo de gran utilidad para la estimación de la media poblacional, entre otros usos.

Moda

La moda es el dato más repetido de la encuesta, el valor de la variable con mayor frecuencia absoluta.5 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.
Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }
Siendo n_{i} la frecuencia absoluta del intervalo modal y n_{i-1} y n_{i+1} las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones
1
2
3
4
5
6
7
8
9
Número de alumnos
2
2
4
5
8
9
3
4
2

Propiedades

Sus principales propiedades son:
  • Cálculo sencillo.
  • Interpretación muy clara.
  • Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".6

Inconvenientes

Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.

  • Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
  • No siempre se sitúa hacia el centro de la distribución.
  • Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

Mediana

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:
\rm 
      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:
\rm 
      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}
Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Cálculo de la mediana para datos agrupados

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).
Así, aplicando la fórmula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:
Ni-1< n/2 < i = N19 < 19.5 < N20
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos)
La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.
Calculemos la Mediana:
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1<n/2 < Ni = N18 < 19 < N19
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar.
En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo)
con lo que Me = (5+6)/2 = 5,5 puntos.

Propiedades e inconvenientes

Las principales propiedades de la mediana son:8
  • Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la mediana inalterada.
  • Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está acotado.
  • No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana menos.
Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la media aritmética.
Propiedades: Es La suma de las desviaciones con respecto a la media aritmética es cero (0).
  • La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a una constante cualquiera se hace mínima cuando dicha constante coincide con la media aritmética.
  • Si a todos los valores de la variable se le suma una misma cantidad, la media aritmética queda aumentada en dicha cantidad.
  • Si todos los valores de la variable se multiplican por una misma constante la media aritmética queda multiplicada por dicha constante.
  • La media aritmética de un conjunto de números positivos siempre es igual o superior a la media geométrica:
{\sqrt[ {n}]{x_{1}x_{2}\dots x_{n}}}\leq {\frac  {x_{1}+\dots +x_{n}}{n}}
  • La media aritmética está comprendida entre el valor máximo y el valor mínimo del conjunto de datos:
\min\{x_{1},x_{2},\dots x_{n}\}\leq {\frac  {x_{1}+\dots +x_{n}}{n}}\leq \max\{x_{1},x_{2},\dots x_{n}\}


En otros términos hay por lo menos un dato que es mayor o igual que la media aritmética.
Por ejemplo, es fácil deducir que en una reunión de 38 individuos hay necesariamente al menos 4 que nacieron el mismo mes. El promedio de individuos que nacieron por mes es 38/12 ≈ 3,167. Luego en algún mes nacieron en una cantidad entera y mayor o igual que el promedio, o sea 4 ≥ 3,167.1

Mediana (estadística)

En el ámbito de la estadística, la mediana representa el valor de la variable de posición central en un conjunto de datos ordenados.

Cálculo

Existen dos métodos para el cálculo de la mediana:
  1. Considerando los datos en forma individual, sin agruparlos.
  2. Utilizando los datos agrupados en intervalos de clase.
A continuación veamos cada una de ellas.

Datos sin agrupar

Sean x_{1},x_{2},x_{3},\ldots ,x_{n} los datos de una muestra ordenada en orden creciente y designando la mediana como M_{e}, distinguimos dos casos:


a) Si n es impar, la mediana es el valor que ocupa la posición (n+1)/2 una vez que los datos han sido ordenados (en orden creciente o decreciente), porque éste es el valor central. Es decir: M_{e}=x_{{(n+1)/2}}.
Por ejemplo, si tenemos 5 datos, que ordenados son: x_{1}=3x_{2}=6x_{3}=7x_{4}=8x_{5}=9 => El valor central es el tercero: x_{{(5+1)/2}}=x_{3}=7. Este valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo (x_{1}x_{2}) y otros dos por encima de él (x_{4}x_{5}).

b) Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando n es par, los dos datos que están en el centro de la muestra ocupan las posiciones n/2 y n/2+1. Es decir: M_{e}=(x_{{{\frac  {n}{2}}}}+x_{{{{\frac  {n}{2}}}+1}})/2.
Por ejemplo, si tenemos 6 datos, que ordenados son: x_{1}=3x_{2}=6x_{3}=7x_{4}=8x_{5}=9x_{6}=10 => Hay dos valores que están por debajo del x_{{{\frac  {6}{2}}}}=x_{3}=7 y otros dos que quedan por encima del siguiente dato x_{{{{\frac  {6}{2}}}+1}}=x_{4}=8. Por tanto, la mediana de este grupo de datos es la media aritmética de estos dos datos: M_{e}={\frac  {x_{3}+x_{4}}{2}}={\frac  {7+8}{2}}=7,5.

Datos agrupados

Al tratar con datos agrupados, si {{{\frac  {n}{2}}}} coincide con el valor de una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa correspondiente. Si no coincide con el valor de ninguna abcisa, se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente equivalencia:
{\frac  {N_{i}-N_{{i-1}}}{a_{i}-a_{{i-1}}}}={\frac  {{\frac  {n}{2}}-N_{{i-1}}}{p}}\Rightarrow p={\frac  {{\frac  {n}{2}}-N_{{i-1}}}{N_{i}-N_{{i-1}}}}(a_{i}-a_{{i-1}})
Donde N_{{i}} y N_{{i-1}} son las frecuencias absolutas acumuladas tales que N_{{i-1}}<{{{\frac  {n}{2}}}}<N_{{i}}a_{{i-1}} y a_{{i}} son los extremos, interior y exterior, del intervalo donde se alcanza la mediana y M_{e}=a_{{i-1}}+p es la abscisa a calcular, la mediana. Se observa que a_{{i}}-a_{{i-1}} es la amplitud de los intervalos seleccionados para el diagrama.
Ejemplos para datos sin agrupar

Ejemplo 1: Cantidad (N) impar de datos

xi
fi
Ni
1
2
2
2
2
4
3
4
8
4
5
13
5
8
21 > 19.5
6
9
30
7
3
33
8
4
37
9
2
39
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla:
Calificaciones
1
2
3
4
5
6
7
8
9
Número de alumnos
2
2
4
5
8
9
3
4
2
Primero se hallan las frecuencias absolutas acumuladas N_{i}. Así, aplicando la formula asociada a la mediana para n impar, se obtiene X(39+1)/2=X20.
  • Ni-1< n/2 < Ni = N19 < 19.5 < N20
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar.En este ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos, la mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.

Ejemplo 2 : Cantidad (N) par de datos

Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones
1
2
3
4
5
6
7
8
9
Número de alumnos
2
2
4
5
6
9
4
4
2
xi
fi
Ni+w
1
2
2
2
2
4
3
4
8
4
5
13
5
6
19 = 19
6
9
28
7
4
32
8
4
36
9
2
38
Primero se hallan las frecuencias absolutas acumuladas N_{i}. Así, aplicando la fórmula asociada a la mediana para n par, se obtiene Formula: X=n/2==>X=(38/2)=>X=19 (Donde n= 38 alumnos divididos entre dos).
  • Ni-1< n/2 < Ni = N18 < 19 < N19
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar. En el ejemplo el lugar decimonoveno lo ocupa el 5 y el vigésimo

No hay comentarios.:

Publicar un comentario