sábado, 19 de noviembre de 2011

ESTADÍSTICA DESCRIPTIVA

CONCEPTOS DE ESTADISTICA

1.    ¿Qué es la Estadística?

La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones.

La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones.

2. Conceptos básicos

En cualquier trabajo en el que se aplique, la estadística debe hacer referencia a un conjunto de entidades, conocido como población.

Población o Universo: es el total del conjunto de elementos u objetos de los cuales se quiere obtener información. Aquí el término población tiene un significado mucho más amplio que el usual, ya que puede referirse a personas, cosas, actos, áreas geográficas e incluso al tiempo.

La población debe estar perfectamente definida en el tiempo y en el espacio, de modo que ante la presencia de un potencial integrante de la misma, se pueda decidir si forma parte o no de la población bajo estudio. Por lo tanto, al definir una población, se debe cuidar que el conjunto de elementos que la integran quede perfectamente delimitado. Si, por ejemplo, estamos analizando las escuelas primarias, debemos especificar cuáles y cuándo: escuelas primarias de la Capital Federal, año 1992.

El tamaño de una población viene dado por la cantidad de elementos que la componen.

Unidad de análisis: es el objeto del cual se desea obtener información. Muchas veces nos referimos a las unidades de análisis con el nombre de elementos. En estadística, un elemento o unidad de análisis puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la temperatura o un intervalo de tiempo. Dada esta definición, puede redefinirse población como el conjunto de unidades de análisis.

Muestra: es un subconjunto de unidades de análisis de una población dada, destinado a suministrar información sobre la población. Para que este subconjunto de unidades de análisis sea de utilidad estadística, deben reunirse ciertos requisitos en la selección de los elementos.

Las causas por la cual se seleccionan muestras son muchas. Puede ocurrir que la población que se defina tenga tamaño infinito, y en consecuencia, no fuera posible observar a todos sus elementos. En otras ocasiones, el costo de la observación exhaustiva puede ser muy elevado, el tiempo de recolección de la información muy extenso, o más aún, la observación de los elementos puede ser destructiva. Por ejemplo, si quisiéramos hacer un estudio de la calidad de una partida de fósforos, no podríamos probarlos a todos pues los destruiríamos.

Variable: es la cualidad o cantidad medible que se estudia de las unidades de análisis y que varían de una unidad a otra. Por ejemplo: edad, ingreso de un individuo, sexo, cantidad de lluvia caída, etc.

Nivel de medición: las variables pueden ser medidas con mayor o menor grado de precisión según la escala de medida utilizada para su observación. Podemos distinguir los siguientes niveles de medición de una variable:

·      Nominal: sólo permite clasificar a las unidades de análisis en categorías. Por ejemplo: sexo –varón y mujer -.

·      Ordinal: además de clasificar a los elementos en distintas categorías, permite establecer una relación de orden de las mismas. Por ejemplo: clase social –baja, media y alta-.

·      Intervalar: permite clasificar, ordenar y medir la distancia entre las diferentes categorías. Por ejemplo: edad.

Las variables se clasifican en dos grupos de acuerdo al nivel de medición utilizado para su observación:

·      Variables cualitativas: son las variables medidas en escala nominal u ordinal, ya que la característica que miden de la unidad de análisis es una cualidad.

·      Variables cuantitativas: son las variables medidas en escala intervalar, puesto que lo que miden es una cantidad.


3. Métodos de recolección de datos

La forma de obtener la información original de las unidades de análisis que componen el universo por investigar puede ser efectuada a través de un censo, una encuesta o un registro administrativo.


Censo


Es un método de recolección de datos mediante el cual la información se obtiene relevando la totalidad de los elementos que componen la población o universo bajo estudio. Un censo debe cumplir las condiciones de universalidad (censar a todos los elementos de la población) y simultaneidad (realizarse en un momento determinado). Un censo es equivalente a una fotografía de la población bajo estudio.

El término censo no sólo se aplica a aquellos relevamientos que comprenden todas las unidades de todo un país y que se realizan con una frecuencia de recolección quinquenal o decenal, como es el caso de los censos de población, económicos, agropecuarios, etc., sino también a todo relevamiento, cualquiera sea su cobertura geográfica, número de unidades de información, o frecuencia de su recolección, siempre que incluya todas las unidades que componen el universo que se investiga.

Encuesta


Es un método de recolección mediante el cual la información se obtiene relevando sólo un subconjunto o muestra de elementos del universo en estudio, que permite obtener información sobre el mismo.

Para que la información obtenida con la encuesta sea generalizable a la población, la muestra utilizada debe ser representativa de la población de la que proviene. Para lograrlo, se utilizan métodos de selección de unidades especialmente diseñados con este fin.

Su uso ha ido en rápido aumento, en la medida en que las instituciones productoras de información disponen de personal capacitado para efectuar su organización, diseño y análisis, debido a su menor costo y a que en determinadas circunstancias la información resulta más exacta debido a que los errores ajenos al muestreo (errores en la recolección y en el procesamiento) pueden ser reducidos a través de una mejor capacitación de los empadronadores y la utilización de métodos de captación de información más objetivos.

Registro administrativo


Existen oficinas públicas que llevan registros administrativos para sus propios fines. Por ejemplo, los Registros Civiles que registran los nacimientos, los casamientos, las defunciones, etc.; los Ministerios de Educación que llevan registros de matriculación de alumnos, deserción escolar, etc.; la Aduana que registra las importaciones y exportaciones, etc.

Esta información puede ser utilizada con fines estadísticos y se obtiene tal como está disponible. Los fines administrativos no siempre coinciden totalmente con los fines estadísticos.

Por ejemplo, para un estudio sobre determinada enfermedad se puede recurrir a los registros disponibles en hospitales, sanatorios, etc. Estos registros habrán sido diseñados para dar respuesta a ciertos requerimientos administrativos y seguramente la información que contienen no coincidirá exactamente con los requerimientos estadísticos.

Los registros constituyen la forma más económica de obtener información estadística de una población.


4. Agrupamiento de datos

Existen métodos para resumir los datos medidos u observados.

Cuando se trata de variables cualitativas donde las categorías están determinadas, lo único que hay que hacer es contabilizar el número de casos pertenecientes a cada categoría y normalizar en relación al número total de casos, calculando una proporción, un porcentaje o una razón.

En cambio, cuando se trata de variables cuantitativas, el resumen de los datos consiste en organizar tablas que sintetizan los datos originales y se denominan distribuciones de frecuencia.

Frecuencia: es el número de veces que se presenta cada valor de la variable.

Tabla de frecuencias: es una tabla que presenta en forma ordenada los distintos valores de una variable y sus correspondientes frecuencias.


Por ejemplo: consideremos la variable “número de aulas por escuela”, medida en las escuelas de una localidad.


En la columna (1) se observan los valores que toma la variable “número de aulas por escuela”, que varían de 8 a 14.
En la columna (2) se ha colocado la cantidad de escuelas correspondiente a cada valor de la variable. Si sumamos esta columna obtenemos la cantidad total de escuelas bajo estudio.
 
Número de aulas por escuela
(1)

Frecuencia

(2)
8
7
9
7
10
12
11
11
12
15
13
10
14
5

67


Representación gráfica: en general la representación gráfica de una tabla de frecuencias permite percibir con mayor claridad algunas características de la masa de datos que se investiga. Por ello, a través de gráficos, resulta bastante más fácil transmitir conclusiones a personas no habituadas a la interpretación de tablas de frecuencias.


Para representar gráficamente una distribución de frecuencias se utiliza un par de ejes de coordenadas. En el eje de las abscisas se representará la variable estudiada y en el eje de las ordenadas, las correspondientes frecuencias.

5. Parámetros estadísticos

Al obtener de una población la distribución de frecuencias de una variable lo que se persigue es reducir o condensar en pocas cifras el conjunto de observaciones relativas a dicha variable.

Este proceso de reducción puede continuarse hasta su grado máximo, es decir, hasta sustituir todos los valores observados por uno solo, que se llama promedio.

Existen numerosas formas de calcular promedios. La más conocida es la media aritmética, pero además existen otras como la mediana y la moda o el modo.

Media aritmética: es el número que se obtiene al dividir la suma de todas las observaciones por la cantidad de observaciones sumadas.


A la media aritmética la simbolizamos con X.

Por ejemplo, si tomamos las edades de un grupo de 9 personas:

16  -  17  -  19  -  20  -  22  -  22  -  23  -  28  -  29


X = (16+17+19+20+22+22+23+28+29)/9 = 21,8 años.


Mediana: si todos los valores observados de la variable se ordenan en sentido creciente (o decreciente), la mediana es el valor de la variable que ocupa el lugar central, es decir, el que deja a un lado y a otro el mismo número de observaciones.

La mediana se representa con el símbolo Mna.

En el ejemplo anterior, las edades ya están ordenadas de menor a mayor. La mediana será:

16  -  17  -  19  -  20  -  22  -  22  -  23  -  28  -  29

Mna= 22 años


Moda o modo: es el valor de la variable que más veces se repite, o sea, el valor que presenta mayor frecuencia.

Es útil como medida de tendencia central, sólo en aquellos casos en que un valor de la variable es mucho más frecuente que el resto. Se basa en la idea de “lo que es moda” o en el “comportamiento de la mayoría” para tomar a cierto valor como representativo del comportamiento de los datos.

1. Definición de estadística
La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.
Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un país, a través de ciertos parámetros como la tasa de morbilidad o mortalidad de la población.
En este caso la estadística describe la muestra en términos de datos organizados y resumidos, y luego infiere conclusiones respecto de la población.
Aplicada a la investigación científica, también infiere cuando provee los medios matemáticos para establecer si una hipótesis debe o no ser rechazada.
La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en físicaquímicabiologíamedicinaastronomíapsicología,sociologíalingüísticademografía, etc.
2. Población y muestra
Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado  estadístico se llama población.
No debe confundirse la población en sentido demográfico y la población en sentido estadístico.
La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de un país, el color de todas las ratas de una ciudad).
Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus estudios universitarios.
Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la mayoría de los casos no es posible obtenerlos por razones de esfuerzo, tiempo y dinero, razón por la cual se extrae, de la población, una muestra, mediante un procedimiento llamado muestreo.
Se llama muestra a un subconjunto de la población, preferiblemente representativo de la misma.
Por ejemplo, si la población es el conjunto de todas las edades de los  de la  de Buenos Aires, una muestra será conjunto de edades de 2000 estudiantes de la provincia de  tomados al azar.
3. Datos individuales y datos estadísticos
Un dato individual es un dato de un solo individuo, mientras que un dato estadístico es un dato de una muestra o de una población en su conjunto. Por ejemplo, la edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o población de personas es un dato estadístico.
Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede ser 37 años, y el promedio de edades de la muestra donde está incluído Juan es 23 años.
Por esta razón un dato estadístico nada dice respecto de los individuos, porque solamente describe la muestra o población.
Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por ejemplo, el promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadísticos descriptores de una población suelen llamarse parámetros (por ejemplo, el promedio de mensuales de las personas de una población).
4. Estructura del dato
Los datos son la materia prima con que trabaja la estadística, del mismo modo que la madera es la materia prima con que trabaja el carpintero. Así como este procesa o transforma la madera para obtener un producto útil, así también el estadístico procesa o transforma los datos para obtener informaciónútil. Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto está en recoger la madera o los datos más adecuados a los objetivos del trabajo a realizar.
De una manera general, puede definirse técnicamente dato como una categoría asignada a una variable de una unidad de análisis.
Por ejemplo, "Luis tiene 1.70 metros de estatura" es un dato, donde ‘Luis’ es la unidad de análisis, ‘estatura’ es la variable, y ‘1.70 metros’ es la categoría asignada.
Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de análisis, una variable y una categoría.
La unidad de análisis es el elemento del cual se predica una propiedad y característica. Puede ser una persona, una familia, un animal, una sustancia química, o un objeto como una dentadura o una mesa.
La variable es la característica, propiedad o atributo que se predica de la unidad de análisis.
Por ejemplo puede ser la edad para una persona, el grado de cohesión para una familia, el nivel de aprendizaje alcanzado para un animal, el peso específico para una sustancia química, el nivel de ‘salud’ para una dentadura, y el tamaño para una mesa.
Pueden entonces también definirse población estadística (o simplemente población) como el conjunto de datos acerca de unidades de análisis (individuos, objetos) en relación a una misma característica, propiedad o atributo (variable).
Sobre una misma población demográfica pueden definirse varias poblaciones de datos, una para cada variable. Por ejemplo, en el conjunto de habitantes de un país (población demográfica), puede definirse una población referida a la variable edad (el conjunto de edades de los habitantes), a la variable ocupación (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones de sexo de los habitantes).
La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad pueden ser 10 años, 11 años, etc.
Cuando la variable se mide cuantitativamente, es decir cuando se expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una variable cuantitativa.
5. La medición
Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista, puede definirse medición como el proceso por el cual asignamos una categoría (o un valor) a una variable, para determinada unidad de análisis.
Ejemplo: cuando decimos que Martín es varón, estamos haciendo una medición, porque estamos asignando una categoría (varón) a una variable (sexo) para una unidad de análisis (Martín).
Se pueden hacer mediciones con mayor o  grado de precisión.
Cuanto más precisa sea la medición, más información nos suministra sobre la variable y, por tanto, sobre la unidad de análisis. No es lo mismo decir que una persona es alta, a decir que mide 1,83 metros.
Los diferentes grados de precisión o de contenido informativo de una medición se suelen caracterizar como niveles de medición. Típicamente se definen cuatro niveles de medición, y en cada  de ellos la obtención del dato o resultado de la medición será diferente:
Ejemplos de datos en diferentes niveles de medición
Nivel de medición
Nivel nominal
Nivel ordinal
Nivel cuantitativo discreto
Nivel cuantitativo continuo
DATO
Martín es electricista
Elena terminó la secundaria
Juan tiene 32 dientes
María tiene 70 pulsaciones por minuto
Unidad de análisis
Martín
Elena
Juan
María
Variable
Oficio
Nivel de instrucción
Cantidad de piezas dentarias
Frecuencia cardíaca
Categoría o valor
Electricista
Secundaria completa
32
70
Unidad de medida
-------------
------------
Diente
Pulsaciones por minuto
En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de análisis (Martín es electricista).
En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas categorías pueden ser ordenadas en una serie creciente o decreciente (la categoría ‘secundaria completa’ puede ordenarse en una serie, pues está entre ‘secundaria incompleta’ y ‘universitaria incompleta’).
En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de análisis de modo tal que la categoría asignada permita saber ‘cuánto’ mayor o menor es respecto de otra categoría, es decir, especifica la distancia o intervalo entre categorías (la categoría 70 es el  de la categoría 35).
Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas.
Una variable discreta es aquella en la cual, dados dos valores consecutivos, no puede adoptar ningún valor intermedio (por ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes).
En cambio, una variable es continua cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles).
6. Clasificaciones de la estadística
Existen varias formas de clasificar los estudios estadísticos.
1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La primera etapa se ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen la muestra (por ejemplo con respecto a la población).
2) Según el tiempo considerado.- Dentro de la estadística descriptiva se distingue la estadística estática o estructural, que describe la población en un momento dado (por ejemplo la tasa de nacimientos en determinado censo), y la estadística dinámica o evolutiva, que describe como va cambiando la población en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos).
3) Según la cantidad de variables estudiada.- Desde este punto de vista hay una estadística univariada (estudia una sola variable, como por ejemplo lainteligencia, en una muestra), una estadística bivariada (estudia como están relacionadas dos variables, como por ejemplo inteligencia y alimentación), y una estadística multivariada (que estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y la alimentación con la inteligencia).

lunes, 7 de noviembre de 2011

HISTORIA DE LA ESTADÍSTICA PPT

HISTORIA DE LA ESTADISTICA


La estadística es una rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones.
estadistica001j
Historia
Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 a.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque.
Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 a.C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el 594 a.C. para cobrar impuestos.
El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa.
Los reyes carolingios Pipino, el Breve, y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente. Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book.
El registro de nacimientos y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el primer estudio estadístico notable de población, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres). Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad
En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales.
estadistica002j
En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos y físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa información.
El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico.
Métodos estadísticos
La materia prima de la estadística consiste en conjuntos de números obtenidos al contar o medir cosas. Al recopilar datos estadísticos se ha de tener especial cuidado para garantizar que la información sea completa y correcta.
El primer problema para los estadísticos reside en determinar qué información y cuánta se ha de reunir. En realidad, la dificultad al compilar un censo está en obtener el número de habitantes de forma completa y exacta; de la misma manera que un físico que quiere contar el número de colisiones por segundo entre las moléculas de un gas debe empezar determinando con precisión la naturaleza de los objetos a contar.
Los estadísticos se enfrentan a un complejo problema cuando, por ejemplo, toman una muestra para un sondeo de opinión o una encuesta electoral. El seleccionar una muestra capaz de representar con exactitud las preferencias del total de la población no es tarea fácil.
estadistica003j
Para establecer una ley física, biológica o social, el estadístico debe comenzar con un conjunto de datos y modificarlo basándose en la experiencia. Por ejemplo, en los primeros estudios sobre crecimiento de la población los cambios en el número de habitantes se predecían calculando la diferencia entre el número de nacimientos y el de fallecimientos en un determinado lapso.
Los expertos en estudios de población comprobaron que la tasa de crecimiento depende sólo del número de nacimientos, sin que el número de defunciones tenga importancia. Por tanto, el futuro crecimiento de la población se empezó a calcular basándose en el número anual de nacimientos por cada 1.000 habitantes. Sin embargo, pronto se dieron cuenta de que las predicciones obtenidas utilizando este método no daban resultados correctos. Los estadísticos comprobaron que hay otros factores que limitan el crecimiento de la población.
Debido a que el número de posibles nacimientos depende del número de mujeres, y no del total de la población, y debido a que las mujeres sólo tienen hijos durante parte de su vida, el dato más importante que se ha de utilizar para predecir la población es el número de niños nacidos vivos por cada 1.000 mujeres en edad de procrear.
El valor obtenido utilizando este dato mejora al combinarlo con el dato del porcentaje de mujeres sin descendencia. Por tanto, la diferencia entre nacimientos y fallecimientos sólo es útil para indicar el crecimiento de población en un determinado periodo de tiempo del pasado, el número de nacimientos por cada 1.000 habitantes sólo expresa la tasa de crecimiento en el mismo periodo, y sólo el número de nacimientos por cada 1.000 mujeres en edad de procrear sirve para predecir el número de habitantes en el futuro.