jueves, 22 de noviembre de 2012

Índices

Índice


Número índice

Un número índice es una medida estadística que permite estudiar las fluctuaciones o variaciones de una magnitud o de más de una en relación al tiempo o al espacio. Los índices más habituales son los que realizan las comparaciones en el tiempo, por lo que, como veremos más adelante, los números índices son en realidad series temporales.

[editar]
Aproximación

Los números índices nacen de la necesidad de conocer en profundidad la magnitud de un fenómeno y poder realizar comparaciones del mismo en distintos territorios o a lo largo del tiempo. Una forma inicial de resolver el problema es referir cada situación a la anterior, pero esto no hace viable la posibilidad de comparaciones significativas, al menos directamente, salvo en lo concerniente a dos de ellas inmediatas. Por esto es más conveniente escoger una situación determinada como punto de referencia inicial, para remitir a ella todas las demás observaciones, esta situación se denomina situación base y las comparaciones que se realizan vienen establecidas a través de un número índice. Los números índices, o simplemente índices, proporcionan comparaciones entre datos correspondientes a diferentes situaciones, escalonadas con arreglo a algún criterio conocido (por ejemplo, por el transcurso del tiempo).
Si definimos a I^t_o como el Número Índice de un determinado valor o bien en el período t, respecto al período base o, entonces
I^t_o = \frac{x_t}{x_o}
donde x_t representa el valor del bien en el período t y x_o el valor del bien en el periodo o.
Las comparaciones, en estadística, entre distintas variables o entre los valores de una sola variable pueden realizarse de distintas formas. Las formas más simples son las que se llevan a cabo por diferencia o aquellas que se realizan por cociente. Estas últimas tienen la ventaja frente a las primeras que eliminan el problema de las unidades de medida. En cambio el segundo de los procedimientos, aunque no adolece de ese problema, puede plantear problemas relativos a elegir la unidad de referencia para realizar las comparaciones.

[editar]
Propiedades

Uno de los problemas de mayor importancia a la hora de elaborar un número índice es el conseguir que éste sea adecuadamente representativo, para ello es preciso que el índice cumpla ciertas propiedades de carácter matemático y reúna ciertos requisitos en su definición:
  1. Identidad. Cuando el período base y el de comparación coinciden, el índice debe ser igual a uno.
  2. Inversión. Si en un índice se invierten los períodos base y de comparación, el índice toma el valor recíproco al anterior.
  3. Circular. Si se multiplica el índice de un período Z con relación a un período Y por el índice de Y con relación a X, el producto ha de ser el índice de Z con relación a X.
  4. Existencia. El índice ha de tomar valores reales y finitos para cualquier valor de la variable observada.
  5. Proporcionalidad. El índice elaborado sobre unos determinados valores de una variable ha de ser proporcional al índice correspondiente a los valores de esa variable multiplicados por un mismo número K.
  6. Variación proporcional. Si los valores de la variable varían en una cierta cuantía, el índice varía proporcionalmente.
  7. Inalterabilidad. Si se introduce una nueva modalidad en el índice complejo, de tal manera que el valor de éste coincide con el del índice simple de aquella, el índice complejo no varía.
  8. Homogeneidad. El valor de un índice no ha de ser afectado por modificaciones de las unidades de medida.

[editar]
Índices simples y complejos

Cuando se realiza una comparación entre los valores de una sola magnitud se obtienen índices simples, En cambio, si se trabaja con más de una magnitud a la vez, se habla de índices complejos. En los dos casos se comparan siempre dos situaciones, una de las cuales se considera como referencia. Cuando se trata de comparaciones temporales, a la situación inicial, se le conoce como periodo base o referencia, mientras que el periodo objeto de comparación se denomina corriente o actual. Para elaborar un número índice de carácter simple, se asigna al periodo que es objeto de referencia el valor 100, de esta manera los números índices de las distintas observaciones posteriores, no son otra cosa que porcentajes de cada valor con respecto al de la referencia. Dentro de los índices complejos se distingue entre índices ponderados y no ponderados, según el peso que se le de a los distintos valores.

Series de tiempo

Análisis de series de tiempo

Las series de tiempo llamadas también series cronológicas o series históricas son un conjunto de datos numéricos que se obtienen en períodos regulares y específicos a través del tiempo, los tiempos pueden ser en años, meses, semanas, días o otra unidad adecuada al problema que se esté trabajando. Ejemplos de series de tiempo son: Ventas mensuales de un producto en una empresa,producción total anual de petróleo en Ecuador durante un cierto número años o las temperaturas anunciadas cada hora por el meteorólogo para un aeropuerto.
Matemáticamente, una serie de tiempo se define por los valores Y1, Y2, Y3,…….de una variable Y (ventas mensuales, producción total, etc.) en tiempos t1, t3, t3……….. Si se reemplaza a X por la variable tiempo, estas series se definen como distribuciones de pares ordenados (X,Y) en el plano cartesiano, siendo Y una función de X; esto se denota por:
Monografias.com
El principal objetivo de las series de tiempo es hacer proyecciones o pronósticos sobre una actividad futura, suponiendo estables las condiciones y variaciones registradas hasta la fecha, lo cual permite planear y tomar decisiones a corto o largo plazo. Después, con base en esa situación ideal, que supone que los factores que influyeron en la serie en el pasado lo continuarán haciendo en el futuro, se analizan las tendencias pasadas y elcomportamiento de las actividades bajo la influencia de ellas; por ejemplo, en la proyección de ventas de un producto o de un servicio de una empresase calculan los posibles precios, la reacción del consumidor, la influencia de la competencia, etc.
Es necesario describir la tendencia ascendente o descendente a largo plazo de una serie cronológica por medio de alguna línea, y la más adecuada será la que mejor represente los datos y sea útil para desarrollar pronósticos. Para lograr la estimación de la tendencia se utilizan con más frecuencia los siguientes métodos:

2) MÉTODO DE LOS MÍNIMOS CUADRADOS

Este método ya se estudió en el capítulo anterior, en el que se indicó las formas para hallar la ecuación de una recta de mínimos cuadrados. Con esta recta se obtendrán los valores de tendencia.
Ejemplo ilustrativo:
Con los siguientes datos acerca de las ventas en millones de dólares de la Empresa M & M:
Año (X)
Ventas (Y)
1995
3,4
1996
3,1
1997
3,9
1998
3,3
1999
3,2
2000
4,3
2001
3,9
2002
3,5
2003
3,6
2004
3,7
2005
4
2006
3,6
2007
4,1
2008
4,7
2009
4,2
2010
4,5
1) Hallar la ecuación de tendencia por el método de los mínimos cuadrados.
2) Pronosticar la tendencia de exportación para el 2011.
3) Elaborar la gráfica para los datos y la recta de tendencia.
Solución:
1) Para hallar la ecuación de tendencia por el método de los mínimos cuadrados se llena la siguiente tabla, codificando la numeración de los años 1995 como 1, 1996 como 2, y así consecutivamente para facilitar los cálculos.
Año (X)
X
Y
XY
X2
Y2
1995
1
3,4
3,40
1
11,56
1996
2
3,1
6,20
4
9,61
1997
3
3,9
11,70
9
15,21
1998
4
3,3
13,20
16
10,89
1999
5
3,2
16,00
25
10,24
2000
6
4,3
25,80
36
18,49
2001
7
3,9
27,30
49
15,21
2002
8
3,5
28,00
64
12,25
2003
9
3,6
32,40
81
12,96
2004
10
3,7
37,00
100
13,69
2005
11
4
44,00
121
16,00
2006
12
3,6
43,20
144
12,96
2007
13
4,1
53,30
169
16,81
2008
14
4,7
65,80
196
22,09
2009
15
4,2
63,00
225
17,64
2010
16
4,5
72,00
256
20,25
Total
136
61
542,3
1496
235,86
Reemplazando valores en las siguientes fórmulas se obtiene los valores de a0 y a1:
Monografias.com
Monografias.com
Interpretación:
- El valor Monografias.comal ser positiva indica que existe una tendencia ascendente de las exportaciones aumentando a un cambio o razón promedio de 0,07 millones de dólares por cada año.
- El valor de Monografias.comindica el punto en donde la recta interseca al eje Y cuando X = 0, es decir indica las exportaciones estimadas para el año 1996 igual a 3,22.
Reemplazado los valores anteriores en la recta de tendencia se obtiene:
Monografias.com
Y = 3,22 + 0,07X
2) Para pronosticar la tendencia de exportación para el 2011 se reemplaza X = 17 en la recta de tendencia, obteniendo el siguiente resultado:
Y = 3,22 + 0,07X
Y = 3,22 + 0,07·17 = 4,41
Los cálculos en Excel se muestran en la siguiente figura:
Monografias.com
3) La gráfica de los datos y la recta de tendencia elaborada en Excel se muestran en la siguiente figura:
Monografias.com

3) MÉTODO DE LOS SEMIPROMEDIOS

Este método se aplica con el objeto de simplificar los cálculos y consiste en:
a) Agrupar los datos en dos grupos iguales
b) Obtener el valor central (mediana) de los tiempos y la media aritmética de los datos de cada grupo, consiguiéndose así dos puntos de la recta de tendencia Monografias.comMonografias.com
c) Estos valores se reemplazan en el siguiente sistema:
Monografias.com
d) Resolviendo el sistema se encuentran los valores de Monografias.comMonografias.comlos cuales se reemplazan en la ecuación de la recta de tendencia, la cual es:
Monografias.com
Con esta recta de tendencia se puede realizar pronósticos, los cuales son menos exactos que los obtenidos con el método de los mínimos cuadrados, sin embargo, su diferencia es mínima.
Ejemplo ilustrativo
Con los siguientes datos sobre las ventas en millones de dólares de la Empresa D & M
Año (X)
Ventas (Y)
2000
1,5
2001
1,8
2002
2
2003
1,5
2004
2,2
2005
2
2006
3
2007
2,8
2008
2,4
2009
2,9
2010
3
1) Hallar la ecuación de tendencia por el método de los semipromedios.
2) Pronosticar la tendencia de ventas para el 2011.
3) Elaborar la gráfica para los datos y la recta de tendencia.
Solución:
1) Se codifica la numeración de los años 2000 como 1, 2001 como 2, y así consecutivamente para facilitar los cálculos. Se agrupa en dos grupos iguales.
Monografias.com
El año 2005 se dejó por fuera para tener grupos con el mismo número de años. El valor central de 3 corresponde a la mediana del primer grupo 1, 2, 3, 4 y 5. El valor central de 9 corresponde a la mediana del segundo grupo 7, 8, 9, 10 y 11. El semipromedio 1,8 corresponden a la media aritmética del primer grupo. El semipromedio 2,82 corresponden a la media aritmética del segundo grupo. De esta manera se obtienen dos puntos (3, 1.8) y (9, 2.82) de la recta de tendencia.
Reemplazando los puntos en el siguiente sistema se obtiene:
Monografias.com
Resolviendo el sistema empleando la regla de Cramer se obtiene:
Monografias.com
Monografias.com
Como Monografias.comes positiva, la recta tiene una tendencia ascendente (pendiente positiva).
Reemplazando los valores calculados se tiene la recta de tendencia, la cual es:
Monografias.com
Monografias.com
2) Para pronosticar la tendencia de exportación para el 2011 se reemplaza X = 12 en la recta de tendencia, obteniendo el siguiente resultado:
Y = 1,29 + 0,17X
Y = 1,29 + 0,17·12 = 3,33
Interpretación: Existe una tendencia ascendente a un cambio promedio de 0,17 millones de dólares por cada año, por lo que el Gerente de ventas de la empresa debe seguir aplicando las políticas necesarias para mantener la tendencia ascendente y mejorar la tasa de crecimiento.
Los cálculos realizados en Excel se muestran en la siguiente figura:
Monografias.com
3) La gráfica de los datos y la recta de tendencia elaborada en Graph se muestran en la siguiente figura:
Monografias.com

Regresión lineal


Regresión Lineal


Para otros usos de este término, véase Función lineal (desambiguación).

Ejemplo de una regresión lineal con una variable dependiente y unavariable independiente.
En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre unavariable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Y_t = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon
Y_t: variable dependiente, explicada o regresando.
X_1, X_2, \cdots, X_p : variables explicativas, independientes o regresores.
\beta_0,\beta_1,\beta_2,\cdots ,\beta_p : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.
donde \beta_0 es la intersección o término "constante", las \beta_i \ (i > 0) son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

Índice

  [ocultar] 
  • 1 Historia
    • 1.1 Etimología
  • 2 El modelo de regresión lineal
  • 3 Hipótesis modelo de regresión lineal clásico
  • 4 Supuestos del modelo de regresión lineal
  • 5 Tipos de modelos de regresión lineal
    • 5.1 Regresión lineal simple
      • 5.1.1 Análisis
    • 5.2 Regresión lineal múltiple
  • 6 Rectas de regresión
  • 7 Aplicaciones de la regresión lineal
    • 7.1 Líneas de tendencia
    • 7.2 Medicina
  • 8 Véase también
  • 9 Referencias
  • 10 Bibliografía
  • 11 Enlaces externos

[editar]
Historia                                       

La primera forma de regresiones lineales documentada fue el método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805,1 y en dónde se incluía una versión delteorema de Gauss-Márkov.

[editar]
Etimología

El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.2 La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por parte de la matemática y la estadística mucho más extenso.
Pero bien, como se ha dicho, podemos usar el término lineal para distinguir modelos basados en cualquier clase de aplicación.

[editar]
El modelo de regresión lineal

El modelo lineal relaciona la variable dependiente Y con K variables explicativas  X_k  (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros  \beta_k desconocidos:
(2)
 Y = \sum \beta_k X_k + \varepsilon
donde  \varepsilon  es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta:
(3)
 Y = \beta_1 + \beta_2 X_2 + \varepsilon
El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos \beta_k, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).
(4)
 Y_i = \sum \beta_k X_{ki} + \varepsilon_i
Los valores escogidos como estimadores de los parámetros, \hat{\beta_k}, son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en
(5)
 Y_i = \sum \hat{\beta_k} X_{ki} + \hat{\varepsilon_i}
Los valores  \hat{\varepsilon_i}  son por su parte estimaciones de la perturbación aleatoria o errores.

[editar]
Hipótesis modelo de regresión lineal clásico

1. Esperanza matemática nula.
E(\varepsilon_i) = 0
Para cada valor de X la perturbación tomará distintos valores de forma aleatoria, pero no tomará sistemáticamente valores positivos o negativos, sino que se supone que tomará algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero.
2. Homocedasticidad
Var(\varepsilon_t) = E(\varepsilon_t - E \varepsilon_t)^2 = E \varepsilon_t^2 = \sigma^2   para todo t
Todos los términos de la perturbación tienen la misma varianza que es desconocida. La dispersión de cada \varepsilon_t en torno a su valor esperado es siempre la misma.
3. Incorrelación. Cov(\varepsilon_t,\varepsilon_s ) = (\varepsilon_t - E \varepsilon_t) (\varepsilon_s - E \varepsilon_s) = E \varepsilon_t \varepsilon_s = 0   para todo t,s con t distinto de s
Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no están correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbación para cualquier observación muestral no viene influenciado por los valores de la perturbación correspondientes a otras observaciones muestrales.
4. Regresores no estocásticos.
5. No existen relaciones lineales exactas entre los regresores.
6. T > k + 1  Suponemos que no existen errores de especificación en el modelo ni errores de medida en las variables explicativas
7. Normalidad de las perturbaciones  \varepsilon -> N(0, \sigma^2 )

[editar]
Supuestos del modelo de regresión lineal

Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:3
  1. La relación entre las variables es lineal.
  2. Los errores en la medición de las variables explicativas son independientes entre sí.
  3. Los errores tienen varianza constante. (Homocedasticidad)
  4. Los errores tienen una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
  5. El error total es la suma de todos los errores.

[editar]
Tipos de modelos de regresión lineal

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

[editar]
Regresión lineal simple

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:4
(6)
 Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i
donde \varepsilon_i es el error asociado a la medición del valor X_i y siguen los supuestos de modo que \varepsilon_i \sim N(0,\sigma^2) (media cero, varianza constante e igual a un \sigma y \varepsilon_i \perp \varepsilon_j con i\neq j).

[editar]
Análisis

Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:5
(7)
E(y_i) = \hat{y_i}=E(\beta_0) + E(\beta_1 x_i) + E(\varepsilon_i)

Derivando respecto a \hat{\beta}_0 y \hat{\beta}_1 e igualando a cero, se obtiene:5
(9)
\frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_0} = 0
(10)
\frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_1} = 0
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:4
(11)
 \hat{\beta_1} = \frac { \sum x \sum y - n \sum xy } { \left ( \sum x \right ) ^ 2 - n \sum x^2 } = \frac{ \sum (x-\bar{x})(y-\bar{y} ) }{\sum ( x - \bar{x})^2 }
(12)
 \hat{\beta_0} = \frac { \sum y - \hat{\beta}_1 \sum x } { n } = \bar{y} - \hat{\beta_1} \bar{x}
La interpretación del parámetro {\beta_1} es que un incremento en Xi de una unidad, Yi incrementará en {\beta_1}

[editar]
Regresión lineal múltiple

La regresion lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación a otras variables llamándose Regresión múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:6
(13)
 Y_i = \beta_0 + \sum \beta_i X_{ip} + \varepsilon_i
donde \varepsilon_i es el error asociado a la medición i del valor X_{ip} y siguen los supuestos de modo que \varepsilon_i \sim N(0,\sigma^2) (media cero, varianza constante e igual a un \sigma y \varepsilon_i \perp \varepsilon_jcon i\neq j).

[editar]
Rectas de regresión

Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:7
  • La recta de regresión de Y sobre X:
(14)
y = \bar{y} + \frac{\sigma_{xy}}{\sigma_{x}^2}(x - \bar{x})
  • La recta de regresión de X sobre Y:
(15)
x = \bar{x} + \frac{\sigma_{xy}}{\sigma_{y}^2}(y - \bar{y})
La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución.

[editar]
Aplicaciones de la regresión lineal

[editar]
Líneas de tendencia

Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado período.8 Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.

[editar]
Medicina

En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco9 vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.10 11 En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.