viernes, 22 de mayo de 2009


DIAGRAMA DE CAJA 
Es  un gráfico  representativo  de las  distribuciones  de  un  conjunto  de datos  en cuya  construccion  se usan  cinco  medidas  descriptivas  de los mismos, a saber: MEDIANA, PRIMER CUARTIL, TERCER CAURTIL, VALOR MAXIMO. Está compuesto por un rectángulo, la caja, y dos brazos, los bigotes.
¿Cómo se dibuja un diagrama de caja?

Un diagrama de caja se construye como sigue:

1) Ordenar los datos de la muestra y obtener el valor mínimo, el máximo, y los tres cuartiles Q1, Q2 y Q3.

2) Dibujar un rectángulo cuyos extremos son Q1 y Q3 e indicar la posición de la mediana, Q2, mediante una línea.

3) Calcular con cualquiera de los procedimientos descritos anteriormente unos límites admisibles superior e inferior, Li y Ls, que identifiquen a los valores atípicos.

4) Considerar como valores atípicos los situados fuera d

el intervalo (Li, Ls).

5) Dibujar una línea que va desde cada extremo del rectángulo central hasta el valor más alejado no atípico, es decir, que está dentro del intervalo (Li, Ls).

6) Identificar todos los datos que están fuera del intervalo (Li, Ls), marcándolos como atípicos.




viernes, 8 de mayo de 2009

REGRESION Y CORELACION

Regresión y Correlación
La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación

correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población

El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.

REGRESION LINEAL


La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre
dos variables.
La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.



Ecuación Lineal
Dos características importantes de una ecuación lineal
la independencia de la recta
la localización de la recta en algún punto. Una ecuación lineal tiene la forma
y = a + bx

EJEMPLO;

Diagrama tallo y hoja

Diagrama de tallo y hojas
Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja).Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) del los valores tallo.El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.

sábado, 2 de mayo de 2009

Tablas de doble entrada
Los estudios estadísticos que se centran en el análisis de una sola variable se llaman unidimensionales. Sin embargo, en las situaciones reales es corriente que se tenga que investigar la combinación de dos variables estadísticas, en lo que se conoce por distribución bidimensional. En este campo, se utilizan presentaciones de los datos en tablas de doble entrada, con gráficas de nube de puntos que interrelacionan las variables.
Medidas De Dispersion


Se llama dispersion de un conjunto de datos al grado en que los diferentes valores numericos de los datos tiende a extenderse alrededor del valor medio utilizado.
Este grado de dispersion se mide por medio de los indicadores estadisticos llamados medidas de dispersion, entre ellas tenemos el rango, la varianza,y la desviacion tipica. Rango:
Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el menor de la distribución,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular.
Hemos estudiado varias medidas de centralización, por lo que podemos hablar de desviación con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media.
Desviación:
Es la diferencia que se observa entre el valor de la variable y la media aritmética. La denotaremos por di .
No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviación, por lo que precisaremos una medida que resuma dicha información.
La primera solución puede ser calcular la media de todas las desviaciones, es decir, si consideramos como muestra la de todas las desviaciones y calculamos su media. Pero esta solución es mala pues como veremos siempre va a ser 0.
“ “
Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se contrarrestan con las negativas.
Para resolver este problema, tenemos dos caminos:
Tomar el valor absoluto de las desviaciones. Desviación media Elevar al cuadrado las desviaciones. Varianza.
Varianza:
Es la media de los cuadrados de las desviaciones, y la denotaremos por o también por .
Aunque también es posible calcularlo como:
Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm2.
MEDIDAS DE TENDENCIA CENTRAL


La media aritmética de las notas de esa asignatura es 4,8. Este número representa el promedio.
Ejemplo 2:
Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de frecuencias y luego calcular la media aritmética. El siguiente cuadro lo ilustra.
Largo (en m)
Frecuencia absoluta
Largo por Frecuencia absoluta
3
10
5 . 10 = 50
6
15
6 . 15 = 90
7
20
7 . 20 = 140
8
12
8 . 12 = 96
9
6
9 . 6 = 54

Frecuencia total = 63
430

X
=
430
=
6,825
63
Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor, por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces).
b) Moda (Mo)
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos, o sea, cual se repite más.
Ejemplo 1:
Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de niñas de un Jardín Infantil.
5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3)
Ejemplo 2:
20, 12, 14, 23, 78, 56, 96
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de valores no tiene moda.
c) Mediana (Med)
Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores antes y después de él en un conjunto de datos agrupados.
Según el número de valores que se tengan se pueden presentar dos casos:
- Si el número de valores es impar, la Mediana corresponderá al valor central de dicho conjunto de datos.
- Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2).
Ejemplo 1:
Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2
Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene:
1, 2, 4, 5 , 8, 9, 10
El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares.
Ejemplo 2:
El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med será el promedio de los valores centrales.
21, 19, 18, 15, 13, 11 ,10, 9, 5, 3
Med
=
13 + 11
=
24
=
12
2
2
ESTADISTICA
Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. (Ellas permiten analizar los datos en torno a un valor central). Entre éstas están la media aritmética, la moda y la mediana.