martes, 16 de noviembre de 2010

Lenguaje Funcional R (Problemas de Distribución)

Como ya sabemos R es un lenguaje funcional, es decir, es un lenguaje basado en funciones. Bueno en R hay demasiadas funciones, que son muy útiles y entre ellas encontré las funciones para calcular ciertas distribuciones que se ven en la materia de probabilidad y estadística, como lo son:
  • La Distribución Binomial.
  • La Distribución Hipergeométrica.
  • La Distribución Normal.
Las primeras dos distribuciones de probabilidad, están clasificadas por ser distribuciones discretas, es decir que la variable aleatoria toma valores enteros. Y la distribución normal esta clasificada por ser una distribución continua.

Bueno, la distribución de probabilidad, de una variable aleatoria es una función que asigna a cada suceso sobre dicha variable, la probabilidad de que este suceso ocurra.

Es muy sencillo aplicar las fórmulas de cada una de estas tres distribuciones a un problema, pero para poder entender lo que haré en R, hay que entender primero los datos de las fórmulas de cada Distribución y su solución escrita.

Bien, la Distribución Binomial, solo tiene dos resultados, el éxito y el fracaso. El éxito está representado por p y el fracaso por q. Se debe saber que una probabilidad esta dada de 0 a 1, es decir, una probabilidad no puede ser mayor a 1, ni menor a 0. Además p + q = 1, en donde 1 es la unidad (es la mayor probabilidad).

La fórmula para calcular la probabilidad binomial está dada por:
En donde:
X = es la variable aleatoria que sigue una distribución binomial.

x = es el valor que toma la variable aleatoria.

n = es el tamaño de la muestra.
C = combinaciones.p = probabilidad de éxito.
q = probabilidad de fracaso.


Bueno, ahora resolveré un problema de distribución binomial, mediante una explicación y mediante una función en R.

Problema de Distribución Binomial
El porcentaje de artículos defectuosos fabricados por una máquina es del 20%. En una muestra de 12 artículos seleccionados al azar, fabricados en esa máquina, encontrar o calcular las siguientes probabilidades:
a) de que ninguno sea defectuoso.
b) menos de 3 sean defectuosos.

c) más de 3 pero menos de 7 sean defectuosos.
d) como mínimo, 4 sean defectuosos.


a) De que ninguno sea defectuoso, esto dignifica que haya 0 artículos defectuosos, en este caso x toma el valor de 0 y calculamos esta probabilidad con el uso de la fórmula, es decir, solo sustituiremos los valores siguientes en la fórmula.

p(x = 0) = 0.0687
x = 0
p = 0.20 (esto es del 20%)
q = 0.80

n = 12


En R hay la función que te calcula la probabilidad binomial es pbinom(). Dentro de los () va x, n, p, es decir, (x, n, p).
Bueno para resolver este inciso en R, colocamos en la terminal R (si lo tenemos instalado), y después colocamos:
pbinom(0, 12, 0.20)
Y presionamos enter, y el resultado obtenido es: 0.06871948.
Aquí les muestro la imagen de este inciso.

b) Menos de 3 sean defectuosos, es decir, que solamente 2 sean defectuosos, entonces al utilizar la fórmula tendremos que obtener la probabilidad de x = 0, x = 1 y x =2 y sumando los resultados de cada una de estas probabilidades obtendremos la probabilidad de x = 2.

p(x < 3) = p(x = 0) + p(x = 1) + p(x = 2) = 0.0687 + 0.2061 + 0.2834 = 0.5582
p = 0.20 (esto es del 20%)
q = 0.80

n = 12

En R, es más sencillo realizar este inciso ya que en R la probabilidad de x número trae acumuladas las probabilidades de los números anteriores a el.

Es decir, en este inciso en R, no es necesario sumar las probabilidades de x = 0, x = 1 y x = 2 para obtener la probabilidad de que solamente hayan dos artículos defectuosos, si no que con solo obtener la probabilidad de x = 2, obtenemos la probabilidad de que hayan solamente 2 artículos defectuosos, ya que como les mencione en R la probabilidad de 2 trae acumuladas las probabilidades de 0, 1 y la del mismo 2.

Entonces en la terminal tecleamos:
pbinom(2, 12, 0.20)
Y presionamos enter y el resultado es: 0.5583457

Aquí esta la imagen del inciso.


c) Más de 3 pero menos de 7 sean defectuosos, esto quiere decir que solo 4, 5, ó 6 sean los artículos defectuosos. Entonces para obtener la probabilidad de esto, sumaremos las probabilidades de x = 4, x = 5 y x = 6.

p(3 < x < 7) = p(x = 4) + p(x = 5) + p(x = 6) = 0.1328 + 0.0531 + 0.0155 = 0.2014
p = 0.20 (esto es del 20%)
q = 0.80

n = 12


En R, a la probabilidad de x = 6 se le restará la probabilidad de x = 3, ya que esta contiene acumuladas las probabilidades de x = 0 a x = 3 y solo se quiere la probabilidad de 4 a 6. De la resta resultará la probabilidad de 6, que trae acumuladas las probabilidades de x = 4 a x = 6.
En R escribimos lo siguiente:
pbinom(6, 12, 0.20) - pbinom(3, 12, 0.20)
Presionamos enter y obtenemos: 0.2015279
Aquí les muestro la imagen de este inciso.

d) Como mínimo, 4 sean defectuosos, esto significa que 4 o más sean defectuosos. Entonces sumaremos las probabilidades de x = 0, x = 1, x = 2 y x =3 y la suma de estas probabilidades las restaremos a la unidad, es decir a 1, y el resultado será la probabilidad de que hayan 4 ó más artículos defectuosos.

p(x < = 4) = 1 - [p(x = 0) + p(x = 1) + p(x = 2) + p(x = 3)] = 1- [0.0687 + 0.2061 + 0.2834 + 0.2362] = 0.2056
p = 0.20 (esto es del 20%)
q = 0.80

n = 12

En R, a la unidad, es decir, a 1 se le restará la probabilidad de x = 3, ya que queremos la probabilidad de x = 4 en adelante, entonces el resultado de la resta, será dicha probabilidad.

Escribimos en la terminal:
1 - pbinom(3, 12, 0.20)
Presionamos enter y obtenemos: 0.2054311

Aquí esta la imagen de este inciso en la terminal.


Y aquí se encuentra la imagen con todos los incisos.


Ahora les explicaré sobre la Distribución Poisson.
Las probabilidades de esta distribución ocurren dentro de un intervalo de tiempo o espacio, y además se obtienen mediante la fórmula:
En donde:
X = variable aleatoria que sigue una distribución Poisson.
x = valor que toma la variable aleatoria.
μ = media de la distribución (número promedio de éxitos dentro del intervalo de tiempo o espacio de interés).
e = base de los logaritmos naturales (2.7182).

μ
= λ t
λ
= razón media.
t = intervalo de tiempo o espacio.

Ahora resolveré un problema de distribución de Poisson mediante su fórmula puntual y mediante una función en R.

Problema de Distribución de Poisson
En el estudio de un cableado eléctrico se encontró que tiene en promedio 3 fallas por Km. Determine las siguientes probabilidades:
a) encontrar mas de una falla en los primeros 500 metros.
b) menos de dos fallas en 2 kms
c) mas de 3 fallas en 1 Km
d) de que sean exactamente 3 fallas en 2 kms

a
) Encontrar mas de una falla en los primeros 500 metros (0.5 Kms). Para encontrar esta probabilidad, a la unidad, es decir a 1 se le restará la probabilidad de x = 0, ya que se quiere la probabilidad de 1 en adelante. Calculamos la probabilidad de x = 0 en la fórmula, sustituyendo valores.

p(x < = 1) = 1 - p(x < = 0) = 1 - 0.2231 = 0.7769
μ
= λ t
λ = 3 fallas / Km
μ = 3 fallas /Km * .5 Km = 1.5 fallas

En R, la función para calcular la probabilidad de Poisson es ppois(). Dentro de los () van x,
λ, es decir, (x, λ).
También en la terminal haremos lo mismo, es decir se le restará la probabilidad de x = 0 a la unidad, es decir, a 1.

Escribimos en la terminal:
1 - ppois(0, 1.5)
Y presionamos enter y obtenemos: 0.7768698

Y aquí esta la imagen de este inciso.

b) Menos de 2 fallas en 2 Kms. Esto significa que solo se encuentren 1 ó 0 fallas. Calcularemos la probabilidad de x = 0 y la probabilidad de x = 1 y sumaremos las dos probabilidades, y ese será el resultado.

p(x < 2) = p(x < = 1) = p(x = 0) + p(x = 1) = 0.0024787 + 0.01487 = 0.0173487
μ = λ t
λ = 3 fallas / Km
μ = 3 fallas /Km * 2 Km = 6 fallas

En R, como les mencione, la probabilidad de x número trae acumuladas las probabilidades de todos los número anteriores a x número, entonces para este inciso solo en R solo se calcularé la probabilidad de x = 1, ya que esta trae acumulada la probabilidad de x = 0.
Escrbimos en la terminal:
ppois(1, 6)
Presionamos enter y obtenemos: 0.01735127


Aquí esta la imagen de este inciso en la terminal.

c) Mas de 3 fallas en 1 Km, esto significa que hayan 3 fallas o mas. Entonces, obtendremos mediante la fórmula las probabilidades de x = 0, x = 1, y x = 2, las sumaremos y la suma de estas probabilidades la restaremos a la unidad, 1, ya que solo queremos la probabilidad de 3 en adelante.

p(x < = 3) = 1 - [p(x = 0) + p(x = 1) + p(x = 2)] = 1 - [0.04978 + 0.1493 + 0.2240] = 0.57692
μ = λ t
λ = 3 fallas / Km
μ = 3 fallas /Km * 1 Km = 3 fallas

En R, solo le restaremos a 1 la probabilidad de x = 2. Tecleamos lo siguiente en la terminal:
1 - ppois(2, 3)
Presionamos enter y obtenemos: 0.5768099

Aquí les coloco la imagen de este inciso.

d) De que sean exactamente 3 fallas en 2 Kms, esto significa de que solamente hayan 3 fallas, entonces calcularemos con la fórmula la probabilidad de x = 3.

p(x = 3) = 0.08923
μ = λ t

λ = 3 fallas / Km

μ = 3 fallas /Km * 2 Km = 6 fallas


En R, a la probabilidad de x = 3 tenemos que restarle la probabilidad de x = 2, para obtener solamente la probabilidad de que se encuentren 3 fallas en 2 Km. Escribimos lo siguiente en la terminal:
ppois(3, 6) - ppois(2, 6)
Presionamos enter y el resultado es: 0.08923508

Aquí les muestro la imagen de este inciso.


Y aquí les coloco la imagen con todos los incisos.

Bueno ahora les explicaré sobre la distribución normal.

La Distribución Normal es una de las distribuciones mas importantes, además es una curva en forma de campana (campana de Gauss).
En probabilidad y estadística se resuelven problemas como de encontrar una probabilidad en una cierta area de la gráfica que como les mencione dicha gráfica de la distribución normal es una curva en forma de campana.

Para encontrar la probabilidad en una cierta area de la curva, se necesitan tener los siguientes datos:

x = variable de la distribució normal
μ = media
σ = desviación estándar

Bueno, estos datos se utilizan para obtener z, que es una variable tipificada de x, la cual sigue tambien una distribución normal, pero donde μ = 0 y σ = 1.

Al obtener z mediante la fórmula:
nos vamos a unas tablas de distribución normal, que dependiendo del valor de z será la probabilidad de x. Las tablas traen diferentes probabilidades para diferentes valores de z. Pero la forma de resolver el problema para encontrar la probabilidad en una cierta area dependerá directamente de lo que el problema dicte.

Ahora resolveré un problema de distribución normal mediante la fórmula de z junto con las tablas de distribución normal y también mediante una función en R.

Problema de Distribución Normal
El tiempo de ensamble de un juguete se distribuye en forma normal con una media de 14.5 minutos y una desviación estándar de 2.5 minutos. Cuál es la probabilidad de que este tipo de juguete se pueda ensamblar:
a) en menos de 12 minutos
b) entre 10 y 15 minutos
c) en mas de 8 minutos

a) En menos de 12 minutos. En las tablas de la distribución normal, la probabilidad de x número (al igual que en R), trae acumuladas las probabilidades de los todos los números anteriores a x número. Aquí se nos pide obtener la probabilidad de que el tiempo de ensamble de un juguete sea en menos de 12 minutos, entonces obtendremos el valor de z mediante su fórmula, en donde x será 12 y al obtener el valor de z, checaré la probabilidad para dicho valor de z en las tablas, y en este caso, esa será la probabilidad de que sea en menos de 12 minutos.

p(x < = 12) = p(z < = -1) = 0.1587
μ = 14.5 minutos
σ = 2.5 minutos
z = -1

En R, la función para obtener una probabilidad normal es pnorm(), y dentro de los (), va x, μ, σ, es decir, (x, μ, σ). Entonces en nuestra termninal en este caso teclearemos lo siguiente:
pnorm(12, 14.5, 2.5)
Presionamos enter y el resultado es: 0.1586553

Aquí les muestro la imagen de este inciso en la terminal.


b) Entre 10 y 15 minutos, en este caso obtendremos dos valores de z, uno para x = 10 y otro para x = 15. Después checaré en la tabla el valor de z para x = 10 y el valor de z para x = 15, y a la probabilidad de x = 15 le restaré la, probabilidad de x = 10, ya que solo queremos la probabilidad entre 10 y 15.

p(10 < = x < = 15) = p(-1.8 mayor igual z menor igual 0.2) = 0.5793 - 0.0359 = 0.5434
μ = 14.5 minutos
σ = 2.5 minutos
z = -1.8
p(x = 10) = 0.0359
z = 0.2
p(x = 15) = 0.5793

En R de la misma manera a la probabilidad normal de x = 15, le restaremos la probabilidad normal de x = 10, entonces escribimos lo siguiente en la terminal:
pnorm(15, 14.5, 2.5) - pnorm(10, 14.5, 2.5)
Presionamos enter y el resultado es: 0.5433294

Ahora aquí les muestro la imagen en la terminal de este inciso.

c) En mas de 8 minutos, esto significa que a la unidad, 1, le restaremos la probabilidad de x = 8, ya que lo que resulte será la probabilidad de 8 en adelante.
Entonces obtenemos el valor de z y checaré el valor de z en las tablas de distribución normal para ver cual será la probabilidad y teniendo esta probabilidad, ahora si se la resto a 1.

p(x < = 8) = p(z < = -2.6) = 1 - 0.0047 = 0.9953
μ = 14.5 minutos
σ = 2.5 minutos
z = -2.6
p(x = 8) = .0047

En R, haremos lo mismo, es decir, a la unidad, 1, le restaremos la probabilidad de 8. Entonces, escribimos en la terminal lo siguiente:
1 - pnorm(8, 14.5, 2.5)
Presionamos enter y obtenemos: 0.9953388

Aquí les muestro la imagen de este inciso en la terminal.

Y aquí les muestro la imagen de la terminal con todos los incisos de este problema.


Referencias.
Funciones de Distribución en R
Los problemas los obtuve de la materia que llevo de Probabilidad Estocástica.
La tabla de distribución normal, la pueden ver aquí

Saludos.


1 comentario:

Publicar un comentario