Rozkład Pascala


Rozkład Pascala
Funkcja rozkładu prawdopodobieństwa
Ilustracja
Czerwona linia oznacza wartość oczekiwaną, a zielona ma w przybliżeniu długość 2σ.
Parametry

r > 0 {\displaystyle r>0} (liczba rzeczywista)
0 < p < 1 {\displaystyle 0<p<1} (liczba rzeczywista)

Poniższe wzory dotyczą wariantu opisującego liczbę sukcesów k {\displaystyle k} przed porażką r . {\displaystyle r.} Inne parametryzacje opisują inne wzory.

Nośnik

k { 0 , 1 , 2 , } {\displaystyle k\in \{0,1,2,\dots \}}

Funkcja rozkładu prawdopodobieństwa

Γ ( r + k ) k ! Γ ( r ) p k ( 1 p ) r {\displaystyle {\frac {\Gamma (r+k)}{k!\,\Gamma (r)}}\,p^{k}\,(1-p)^{r}}

Dystrybuanta

I p ( r , k + 1 )  gdzie  I p ( x , y ) {\displaystyle I_{p}(r,k+1){\text{ gdzie }}I_{p}(x,y)} jest regularyzowaną niekompletną funkcją Beta

Wartość oczekiwana (średnia)

r p ( 1 p ) {\displaystyle {\frac {rp}{(1-p)}}}

Moda

( r 1 ) ( 1 p ) / p r > 1 {\displaystyle \lfloor (r-1)\,(1-p)/p\rfloor \iff r>1}
0 r 1 {\displaystyle 0\iff r\leqslant 1}

Wariancja

r p ( 1 p ) 2 {\displaystyle r\,{\frac {p}{(1-p)^{2}}}}

Współczynnik skośności

1 + p r p {\displaystyle {\frac {1+p}{\sqrt {r\,p}}}}

Kurtoza

6 r + ( 1 p ) 2 p r {\displaystyle {\frac {6}{r}}+{\frac {(1-p)^{2}}{pr}}}

Entropia

1 2 ln ( 2 π e r p ( 1 p ) 2 ) + O ( 1 r ) {\displaystyle {\frac {1}{2}}\ln \left({\frac {2\pi erp}{(1-p)^{2}}}\right)+O\left({\frac {1}{r}}\right)}

Funkcja tworząca momenty

( 1 p 1 p e t ) r  przy  t < log p {\displaystyle {\bigg (}{\frac {1-p}{1-pe^{t}}}{\bigg )}^{\!r}{\text{ przy }}t<-\log p}

Funkcja charakterystyczna

( 1 p 1 p e i t ) r  with  t R {\displaystyle {\bigg (}{\frac {1-p}{1-pe^{i\,t}}}{\bigg )}^{\!r}{\text{ with }}t\in \mathbb {R} }

Rozkład Pascala (ujemny rozkład dwumianowy)dyskretny rozkład prawdopodobieństwa opisujący m.in. liczbę sukcesów i porażek w niezależnych i posiadających równe prawdopodobieństwo sukcesu próbach Bernoulliego. Jest uogólnieniem rozkładu geometrycznego dla wielu prób.

Termin „ujemny rozkład dwumianowy” nie jest w pełni usystematyzowany. Może dotyczyć jednego z kilku wariantów funkcji opisujących te same zmienne losowe z subtelnymi różnicami w parametryzacji – liczby prób, albo sukcesów lub porażek (czasem liczonych bez ostatniego), przy określonej wartości jednej z tych zmiennych. Momenty i inne charakterystyki poszczególnych wersji rozkładu różnią o proste transformacje[1][2][3]. Nazwa „rozkład Pascala” opisuje z reguły warianty dla wartości całkowitych, liczonych bez ostatniego zdarzenia[3].

Wariant dla liczby sukcesów przed r {\displaystyle r} porażką

Rozważmy ciąg X 1 , X 2 , {\displaystyle X_{1},X_{2},\dots } niezależnych prób Bernoulliego z prawdopodobieństwem sukcesu równym p . {\displaystyle p.} Ustalmy liczbę r . {\displaystyle r.} Obserwujemy ten ciąg do momentu stwierdzenia r {\displaystyle r} -tej porażki. Oznaczmy ten moment przez T . {\displaystyle T.} O zmiennej losowej T r {\displaystyle T-r} mówimy, że ma ujemny rozkład dwumianowy NB(r,p) z parametrami r {\displaystyle r} oraz p . {\displaystyle p.}

Niech X {\displaystyle X} ma rozkład NB(r,p). Wtedy X = k {\displaystyle X=k} (gdzie k = 0 , 1 , 2 , {\displaystyle k=0,1,2,\dots } ) jeśli w r + k {\displaystyle r+k} -tym momencie zaszła porażka oraz w ciągu X 1 , , X r + k 1 {\displaystyle X_{1},\dots ,X_{r+k-1}} zaszło r 1 {\displaystyle r-1} porażek. Zatem

P ( X = k ) = ( r + k 1 r 1 ) ( 1 p ) r 1 p ( r + k 1 ) ( r 1 ) ( 1 p ) , {\displaystyle P(X=k)={\binom {r+k-1}{r-1}}(1-p)^{r-1}p^{(r+k-1)-(r-1)}(1-p),}

czyli

P ( X = k ) = ( r + k 1 r 1 ) ( 1 p ) r p k . {\displaystyle P(X=k)={\binom {r+k-1}{r-1}}(1-p)^{r}p^{k}.}

Na rozkład ten można spojrzeć w następujący sposób: rozważamy ciąg niezależnych zmiennych Y 1 , , Y r {\displaystyle Y_{1},\dots ,Y_{r}} o rozkładzie geometrycznym z parametrem sukcesu 1 p {\displaystyle 1-p} odpowiadające obserwacji naszego ciągu po porażce r 1 {\displaystyle r-1} do porażki r {\displaystyle r} włącznie. Niech Y = Y 1 + + Y r . {\displaystyle Y=Y_{1}+\ldots +Y_{r}.} Wtedy zmienna losowa X = Y r , {\displaystyle X=Y-r,} zliczająca jedynie liczbę sukcesów, ma rozkład ujemny dwumianowy z parametrami r {\displaystyle r} oraz p . {\displaystyle p.} Z tego otrzymujemy natychmiast wzór na wartość oczekiwaną zmiennej losowej o tym rozkładzie

E ( X ) = r 1 1 p r = r p 1 p . {\displaystyle E(X)=r\cdot {\frac {1}{1-p}}-r={\frac {rp}{1-p}}.}

W podobny sposób można wyprowadzić wzór na wariancję.

Dla porównania, w trochę innej definicji ujemnego rozkładu dwumianowego, porażkę zastępuje się sukcesem oraz nie odejmuje się parametru r {\displaystyle r} od momentu zajścia r {\displaystyle r} -tego sukcesu. Otrzymujemy wtedy zmienną losową X {\displaystyle X} o następujący rozkładzie

P ( X = k ) = ( k 1 r 1 ) p r ( 1 p ) k r , k r . {\displaystyle P(X=k)={\binom {k-1}{r-1}}p^{r}(1-p)^{k-r},\quad k\geqslant r.}

Zmienna ta jest sumą r niezależnych zmiennych o rozkładzie geometrycznym z parametrem sukcesu p . {\displaystyle p.}

Inne warianty

Rozkład był prezentowany w literaturze na kilka różnych sposobów, z subtelnymi zmianami parametryzacji[1][2][3]. Różnice w notacji dotyczą m.in. stosowania równoważności pomiędzy liczbą prób n , {\displaystyle n,} sukcesów k {\displaystyle k} i porażek r , {\displaystyle r,} np. n = k + r , {\displaystyle n=k+r,} tego, czy nośnik zaczyna się od 0 czy 1, oraz z możliwości przedstawienia wzoru z użyciem różnych form symbolu Newtona, także z wykorzystaniem tożsamości kombinacji dopełniających:

( n k ) = n ! k ! ( n k ) ! = ( n n k ) . {\displaystyle {n \choose k}={\frac {n!}{k!(n-k)!}}={n \choose n-k}.}

Poniższa tabela przedstawia niektóre spotykane formy rozkładu.

X {\displaystyle X} zlicza: Nośnik i funkcja rozkładu prawdopodobieństwa Wzór
k {\displaystyle k} sukcesów, przy danych r {\displaystyle r} porażkach dla k { 0 , 1 , 2 , } {\displaystyle k\in \{0,1,2,\dots \}} f ( k ; r , p ) Pr ( X = k ) = {\displaystyle f(k;r,p)\equiv \Pr(X=k)=} ( k + r 1 k ) p k ( 1 p ) r {\displaystyle {\binom {k+r-1}{k}}p^{k}(1-p)^{r}} [4][5]
( k + r 1 r 1 ) p k ( 1 p ) r {\displaystyle {\binom {k+r-1}{r-1}}p^{k}(1-p)^{r}} (wariant opisany powyżej)
( n 1 k ) p k ( 1 p ) r {\displaystyle {\binom {n-1}{k}}p^{k}(1-p)^{r}}
n {\displaystyle n} prób, przy danych r {\displaystyle r} porażkach dla n { r , r + 1 , r + 2 , } {\displaystyle n\in \{r,r+1,r+2,\dots \}} f ( n ; r , p ) Pr ( X = n ) = {\displaystyle f(n;r,p)\equiv \Pr(X=n)=}
( n 1 r 1 ) p n r ( 1 p ) r {\displaystyle {\binom {n-1}{r-1}}p^{n-r}(1-p)^{r}}
( n 1 n r ) p n r ( 1 p ) r {\displaystyle {\binom {n-1}{n-r}}p^{n-r}(1-p)^{r}}
r {\displaystyle r} porażek, przy danych k {\displaystyle k} sukcesach dla r { 0 , 1 , 2 , } {\displaystyle r\in \{0,1,2,\dots \}} f ( r ; k , p ) Pr ( X = r ) = {\displaystyle f(r;k,p)\equiv \Pr(X=r)=} ( k + r 1 r ) p k ( 1 p ) r {\displaystyle {\binom {k+r-1}{r}}p^{k}(1-p)^{r}} [2][6]
( k + r 1 k 1 ) p k ( 1 p ) r {\displaystyle {\binom {k+r-1}{k-1}}p^{k}(1-p)^{r}} [7][8][9][10]
( n 1 r ) p k ( 1 p ) r {\displaystyle {\binom {n-1}{r}}p^{k}(1-p)^{r}}
n {\displaystyle n} prób, przy danych k {\displaystyle k} sukcesach dla n { k , k + 1 , k + 2 , } {\displaystyle n\in \{k,k+1,k+2,\dots \}} f ( n ; k , p ) Pr ( X = n ) = {\displaystyle f(n;k,p)\equiv \Pr(X=n)=}
( n 1 k 1 ) p k ( 1 p ) n k {\displaystyle {\binom {n-1}{k-1}}p^{k}(1-p)^{n-k}} [2][10][11][12][13][14]
( n 1 n k ) p k ( 1 p ) n k {\displaystyle {\binom {n-1}{n-k}}p^{k}(1-p)^{n-k}}
k {\displaystyle k} sukcesów, przy danych n {\displaystyle n} próbach (rozkład dwumianowy – dla porównania) dla k { 0 , 1 , 2 , , n } {\displaystyle k\in \{0,1,2,\dots ,n\}} f ( k ; n , p ) Pr ( X = k ) = {\displaystyle f(k;n,p)\equiv \Pr(X=k)=} ( n k ) p k ( 1 p ) r {\displaystyle {\binom {n}{k}}p^{k}(1-p)^{r}}

Wzór można także rozszerzyć dla niecałkowitych wartości r {\displaystyle r} z użyciem funkcji gamma, np.:

f ( r , k , p ) = ( k + r 1 ) ! k ! ( r 1 ) ! p r ( 1 p ) k = ( k + r 1 r 1 ) p r ( 1 p ) k = Γ ( r + k ) k ! Γ ( r ) p r ( 1 p ) k {\displaystyle {\begin{aligned}f(r,k,p)&={\frac {(k+r-1)!}{k!\;(r-1)!}}\;p^{r}\,(1-p)^{k}\\&={k+r-1 \choose r-1}\;p^{r}\,(1-p)^{k}\!\\&={\frac {\Gamma (r+k)}{k!\,\Gamma (r)}}\,p^{r}\,(1-p)^{k}\end{aligned}}}

opisuje, jakie jest prawdopodobieństwo, że czas oczekiwania na r {\displaystyle r} -ty sukces będzie wynosił k + r . {\displaystyle k+r.}

Przypisy

  1. a b Gavin J.S.G.J.S. Ross Gavin J.S.G.J.S., Donald ArthurD.A. Preece Donald ArthurD.A., The Negative Binomial Distribution, „The Statistician”, 34 (3), 1985, s. 323, DOI: 10.2307/2987659, JSTOR: 2987659 [dostęp 2019-06-17] .
  2. a b c d John D.J.D. Cook John D.J.D., Notes on the Negative Binomial Distribution [online] .
  3. a b c SamuelS. Kotz SamuelS., Adrienne W.A.W. Kemp Adrienne W.A.W., Norman LloydN.L. Johnson Norman LloydN.L., Univariate discrete distributions, wyd. 2, New York: Wiley, 1992, s. 199–213, ISBN 0-471-54897-9, OCLC 25547480 [dostęp 2019-06-17] .
  4. Morris H.M.H. DeGroot Morris H.M.H., Mark J.M.J. Schervish Mark J.M.J., Probability and statistics, wyd. 4, Boston: Addison-Wesley, 2012, s. 297, ISBN 978-0-321-50046-5, OCLC 502674206 [dostęp 2019-06-17] .
  5. William H.W.H. Beyer William H.W.H., CRC standard mathematical tables, wyd. 28, Boca Raton, Florida: CRC Press, 1987, s. 533, ISBN 0-8493-0628-0, OCLC 16167842 [dostęp 2019-06-17] .
  6. Mathworks: Negative Binomial Distribution [online] .
  7. Eric W.E.W. Weisstein Eric W.E.W., Negative Binomial Distribution, [w:] MathWorld, Wolfram Research [dostęp 2019-06-17]  (ang.).
  8. SAS Institute, „Negative Binomial Distribution”, SAS(R) 9.4 Functions and CALL Routines: Reference, Fourth Edition, SAS Institute, Cary, NC, 2016.
  9. Michael J.M.J. Crawley Michael J.M.J., The R Book, Wiley, 2012, ISBN 978-1-118-44896-0 .
  10. a b Set theory: Section 3.2.5 – Negative Binomial Distribution [online] .
  11. Randomservices.org, Chapter 10: Bernoulli Trials, Section 4: The Negative Binomial Distribution [online] .
  12. Stat Trek: Negative Binomial Distribution [online] .
  13. JacquelineJ. Wroughton JacquelineJ., Distinguishing Between Binomial, Hypergeometric and Negative Binomial Distributions [online] .
  14. Sheldon M.S.M. Ross Sheldon M.S.M., A first course in probability, wyd. 8, Upper Saddle River, N.J.: Pearson Prentice Hall, 2010, s. 157, ISBN 978-0-13-603313-4, OCLC 237199460 [dostęp 2019-06-17] .

Bibliografia

  • William Feller: Wstęp do rachunku prawdopodobieństwa. Warszawa: PWN, 2007, s. 159–160. ISBN 978-83-01-14684-9.