ecosmak.ru

Asymptotické vlastnosti kritérií dobrej zhody pre testovanie hypotéz vo výberovej schéme bez návratu, založené na plnení buniek vo všeobecnej schéme umiestnenia jamiek Alexander Vladimirovich. Asymptotické správanie funkcií

Definícia. Smer určený nenulovým vektorom sa nazýva asymptotický smer vo vzťahu k riadku druhého rádu, ak akýkoľvek priamka tohto smeru (teda rovnobežná s vektorom) má buď najviac jeden spoločný bod s priamkou, alebo je v tejto priamke obsiahnutá.

? Koľko spoločných bodov môže mať priamka druhého rádu a priamka? asymptotický smer vzhľadom na túto čiaru?

Vo všeobecnej teórii línií druhého rádu je dokázané, že ak

Potom nenulový vektor ( určuje asymptotický smer vzhľadom na čiaru

(všeobecné kritérium pre asymptotický smer).

Pre linky druhého rádu

ak , potom neexistujú žiadne asymptotické smery,

ak potom existujú dva asymptotické smery,

ak potom existuje len jeden asymptotický smer.

Nasledujúca lemma sa ukazuje ako užitočná ( kritérium pre asymptotický smer priamky parabolického typu).

Lemma . Nech je priamka parabolického typu.

Nenulový vektor má asymptotický smer

pomerne . (5)

(Problém: Dokážte lemu.)

Definícia. Priama čiara asymptotického smeru sa nazýva asymptota čiara druhého rádu, ak táto čiara buď nepretína alebo je v nej obsiahnutá.

Veta . Ak má asymptotický smer vzhľadom na , potom je asymptota rovnobežná s vektorom určená rovnicou

Vyplňme tabuľku.

ÚLOHY.

1. Nájdite vektory asymptotických smerov pre nasledujúce čiary druhého rádu:

4 - hyperbolický typ dva asymptotické smery.

Použime kritérium asymptotického smeru:

Má asymptotický smer vzhľadom na túto čiaru 4.

Ak =0, potom =0, teda nula. Potom Divide by We get kvadratická rovnica: , kde t = . Riešime túto kvadratickú rovnicu a nájdeme dve riešenia: t = 4 a t = 1. Potom asymptotické smery priamky .

(Môžu sa zvážiť dve metódy, pretože čiara je parabolického typu.)

2. Zistite, či súradnicové osi majú asymptotické smery vo vzťahu k čiaram druhého rádu:

3. Napíšte všeobecnú rovnicu riadku druhého rádu, pre ktorý

a) os x má asymptotický smer;

b) Obe súradnicové osi majú asymptotické smery;

c) súradnicové osi majú asymptotické smery a O je stred priamky.

4. Napíšte rovnice asymptot pre riadky:

a) ng w:val="EN-US"/>r=0"> ;

5. Dokážte, že ak má priamka druhého rádu dve nerovnobežné asymptoty, ich priesečník je stredom tejto priamky.

Poznámka: Pretože existujú dve neparalelné asymptoty, existujú dva asymptotické smery, potom , a preto je čiara centrálna.

Napíšte rovnice asymptot v všeobecný pohľad a systém na nájdenie centra. Všetko je zrejmé.

6.(č. 920) Napíšte rovnicu hyperboly prechádzajúcej bodom A(0, -5) a majúcej asymptoty x – 1 = 0 a 2x – y + 1 = 0.

Poznámka. Použite výrok z predchádzajúceho problému.

Domáca úloha . , č. 915 (c, e, f), č. 916 (c, d, e), č. 920 (ak ste nemali čas);

Detské postieľky;

Silajev, Timošenko. Praktické úlohy v geometrii,

1. semester. S.67, otázky 1-8, s.70, otázky 1-3 (ústne).

PRIEMERY RADY DRUHÉHO OBJEDNÁVKY.

PRIPOJENÉ PRIEMERY.

Je daný afinný súradnicový systém.

Definícia. Priemer čiara druhého rádu konjugovaná s vektorom neasymptotického smeru vzhľadom na , je množina stredových bodov všetkých akordov čiary rovnobežnej s vektorom .

Počas prednášky bolo dokázané, že priemer je priamka a bola získaná jeho rovnica

Odporúčania: Ukážte (na elipse), ako je skonštruovaný (nastavíme neasymptotický smer; nakreslite [dve] priame čiary tohto smeru pretínajúce čiaru; nájdite stredy akordov, ktoré sa majú odrezať; nakreslite priamku cez stredy - toto je priemer).

Diskutujte:

1. Prečo sa pri určovaní priemeru berie vektor neasymptotického smeru. Ak nevedia odpovedať, požiadajte ich, aby zostrojili priemer, napríklad pre parabolu.

2. Má nejaká linka druhého rádu aspoň jeden priemer? prečo?

3. Počas prednášky bolo dokázané, že priemer je priamka. Stred ktorej tetivy je bod M na obrázku?


4. Pozrite sa na zátvorky v rovnici (7). Čo vám pripomínajú?

Záver: 1) každý stred patrí ku každému priemeru;

2) ak existuje línia stredov, potom existuje jeden priemer.

5. Aký smer majú priemery parabolickej priamky? (Asymptotické)

Dôkaz (pravdepodobne na prednáške).

Nech je priemer d daný rovnicou (7`) konjugovaný s vektorom neasymptotického smeru. Potom jeho smerový vektor

(-(), ). Ukážme, že tento vektor má asymptotický smer. Použime kritérium asymptotického smerového vektora pre priamku parabolického typu (pozri (5)). Nahraďte a presvedčte sa (nezabudnite na to .

6. Koľko priemerov má parabola? Ich relatívna pozícia? Koľko priemerov majú zvyšné parabolické čiary? prečo?

7. Ako zostrojiť celkový priemer niektorých párov priamok druhého rádu (pozri otázky 30, 31 nižšie).

8. Vyplníme tabuľku a určite urobíme výkresy.

1. Napíšte rovnicu pre množinu stredov všetkých akordov rovnobežných s vektorom

2. Napíšte rovnicu pre priemer d prechádzajúci bodom K(1,-2) pre priamku.

Kroky riešenia:

1. spôsob.

1. Určte typ (aby ste vedeli, ako sa správajú priemery tohto vlasca).

V tomto prípade je čiara stredová, potom všetky priemery prechádzajú stredom C.

2. Zostavíme rovnicu priamky prechádzajúcej dvoma bodmi K a C. Toto je požadovaný priemer.

2. spôsob.

1. Rovnicu pre priemer d napíšeme v tvare (7`).

2. Dosadením súradníc bodu K do tejto rovnice zistíme vzťah medzi súradnicami konjugátu vektora s priemerom d.

3. Tento vektor nastavíme s prihliadnutím na zistenú závislosť a zostavíme rovnicu pre priemer d.

V tomto probléme je jednoduchšie vypočítať pomocou druhej metódy.

3. Napíšte rovnicu pre priemer rovnobežný s osou x.

4. Nájdite stred akordu odrezaný čiarou

na priamke x + 3y – 12 =0.

Pokyny k riešeniu: Samozrejme, môžete nájsť priesečníky priamky a údajov čiary a potom stred výsledného segmentu. Túžba po tom sa vytratí, ak vezmeme napríklad priamku s rovnicou x +3y – 2009 =0.

480 rubľov. | 150 UAH | 7,5 $, MOUSEOFF, FGCOLOR, "#FFFFCC",BGCOLOR, "#393939");" onMouseOut="return nd();"> Dizertačná práca - 480 RUR, dodávka 10 minút 24 hodín denne, sedem dní v týždni a sviatky

Kolodzey Alexander Vladimirovič. Asymptotické vlastnosti kritérií zhody pre testovanie hypotéz vo výberovej schéme bez vrátenia, založené na plnení buniek v zovšeobecnenej schéme umiestnenia: dizertačná práca... Kandidát fyzikálnych a matematických vied: 01.01.05.- Moskva, 2006.- 110 s.: chorý. RSL OD, 61 07-1/496

Úvod

1 Entropia a informačná vzdialenosť 36

1.1 Základné definície a označenia 36

1.2 Entropia diskrétnych rozdelení s obmedzeným matematickým očakávaním 39

1.3 Logaritmická zovšeobecnená metrika na množine diskrétnych rozdelení 43

1.4 Kompaktnosť funkcií s spočítateľnou množinou argumentov. 46

1.5 Spojitosť informačnej vzdialenosti Kullback - Leibler - Sanov 49

1.6 Závery 67

2 Pravdepodobnosť veľkých odchýlok 68

2.1 Pravdepodobnosti veľkých odchýlok funkcií od počtu buniek s danou náplňou 68

2.1.1 Lokálna limitná veta 68

2.1.2 Integrálna limitná veta 70

2.1.3 Informačná vzdialenosť a pravdepodobnosti veľkých odchýlok oddeliteľných štatistík 75

2.2 Pravdepodobnosti veľkých odchýlok separovateľných štatistík, ktoré nespĺňajú Cramerovu podmienku 81

2.3 Závery 90

3 Asymptotické vlastnosti kritérií dobrej zhody 92

3.1 Kritériá súhlasu pre výber bez návrhu vrátenia. 92

3.2 Asymptotická relatívna účinnosť kritérií dobrej zhody 94

3.3 Kritériá založené na počte buniek vo všeobecných rozloženiach 95

3.4 Závery 98

Záver 99

Literatúra 103

Úvod do práce

Predmet výskumu a relevantnosť témy. V teórii štatistickej analýzy diskrétnych sekvencií zaujímajú osobitné miesto kritériá dobrej zhody na testovanie prípadne komplexnej nulovej hypotézy, ktorá je taká, že pre náhodnú sekvenciu pQ)?=i

Хі Є Ім,і= 1,...,n, Ім = (о, і,..., M), pre ľubovoľné і = 1,..., n a pre ľubovoľné k Є їm pravdepodobnosť udalosti ( Хі = k) nezávisí od r. To znamená, že postupnosť (Хі)f =1 je v určitom zmysle stacionárna.

V počte aplikované problémy Za postupnosť (X() =1 považujeme postupnosť farieb loptičiek pri výbere bez návratu až do vyčerpania z urny obsahujúcej rik - 1 > 0 loptičiek farby k, k Є їm - množinu takýchto výberov označíme T(n 0 - 1, .. .,п/ - 1). Nech urna obsahuje celkom n - 1 loptičiek, m n-l= (n fc -l).

Označme r (k) _ r (fc) r (fc) postupnosť počtov guličiek farby k vo vzorke. Uvažujme postupnosť h« = (^,...,)). M fc) =ri fc) , ^ = ^-^ = 2,...,^-1, _ (fc)

Postupnosť h^ sa určí pomocou vzdialeností medzi miestami susedných guľôčok farby k tak, že *Ф = n.

Množina postupností h(fc) pre všetky k Є їм jednoznačne určuje postupnosť (Х()^ =1. Postupnosti h k pre rôzne k sú na sebe závislé. Najmä každá z nich je jednoznačne určená všetkými ostatnými. Ak je mohutnosť množiny 1m 2, tak postupnosť farieb guľôčok je jednoznačne určená postupnosťou h() vzdialeností medzi miestami susedných guľôčok rovnakej pevnej farby Nech je N - 1 guľôčok farby 0 v urne obsahujúcej n - 1 loptičiek dvoch rôznych farieb Môžeme stanoviť vzájomnú zhodu medzi množinou M(N-l,n - N) a množinou 9\ Пі m vektorov h(n, N) = (hi,..., /i#) s kladnými celými zložkami takými, že

Množina 9\n,m zodpovedá množine všetkých odlišných delení kladného celého čísla n do N usporiadaných členov.

Zadaním určitého rozdelenia pravdepodobnosti na množine vektorov 9R n d získame zodpovedajúce rozdelenie pravdepodobnosti na množine Wl(N - l,n - N). Množina V\n,y je podmnožinou množiny 2J n,iv vektorov s nezápornými celočíselnými zložkami, ktoré spĺňajú (0,1). V dizertačnej práci budú rozdelenia tvaru považované za rozdelenia pravdepodobnosti na množine vektorov

P(%, N) = (rb..., r N)) = P(& = r„, u = 1,..., N\ & = n), (0,2) kde 6 > , lg - nezávislé nezáporné celočíselné náhodné premenné.

Distribúcie tvaru (0,2) v /24/ sa nazývajú zovšeobecnené schémy umiestnenia n častíc do N buniek. Konkrétne, ak sú náhodné premenné b...,lr v (0.2) rozdelené podľa Poissonových zákonov s parametrami Ai,...,Alr, potom vektor h(n,N) má polynomické rozdelenie s pravdepodobnosti výsledkov

Ri = t--~t~> ^ = 1,---,^-

Li + ... + l^

Ak sú náhodné premenné i> >&v v (0.2) identicky rozdelené podľa geometrického zákona V(Zi = k)= P k - 1 (l-p),k=l,2,..., kde p je ľubovoľné v interval 0

Ako je uvedené v /14/,/38/, osobitné miesto pri testovaní hypotéz o distribúcii frekvenčných vektorov h(n, N) = (hi,..., h^) v zovšeobecnených schémach umiestnenia n častíc do N buniek je obsadené kritériami zostrojenými na základe štatistiky v tvare ad%,lo) = L(i (o.z)

Фк «%,%..;$, (0.4) kde /j/, v = 1,2,... a ф sú niektoré funkcie s reálnou hodnotou,

Mg = E1 (K = g), g = 0,1,... 1/=1

Množstvo // r v /27/ sa nazývalo počet buniek obsahujúcich presne r častíc.

Štatistiky tvaru (0,3) v /30/ sa nazývajú separovateľné (aditívne separovateľné) štatistiky. Ak funkcie /„ v (0.3) nezávisia od u, tak sa takáto štatistika volala v /31/ symetrickej separovateľnej štatistike.

Pre ľubovoľné r je štatistika /x r symetrická separovateľná štatistika. Z rovnosti

DM = DFg (0,5) z toho vyplýva, že trieda symetrickej separovateľnej štatistiky h u sa zhoduje s triedou lineárnych funkcií fi r. Trieda funkcií formulára (0,4) je navyše širšia ako trieda symetrickej separovateľnej štatistiky.

H 0 = (Rao(n,A0) je postupnosť jednoduchých nulových hypotéz, že rozdelenie vektora h(n,N) je (0,2), kde náhodné premenné i,...,ln a (0,2) sú identicky rozdelené a P(ti = k)=p k ,k = 0,l,2,..., parametre n, N sa menia v centrálnej oblasti.

Uvažujme nejaké P Є (0,1) a postupnosť, všeobecne povedané, komplexných alternatív n = (H(n,N)) tak, že existuje n

P(fm > OpAR)) >: 0-Hypotézu Hq(ti,N) zamietneme, ak fm > a s m((3). Ak existuje hranica jim ~1nP(0l > a n, N (P)) = ШН ), kde pravdepodobnosť pre každé N sa vypočíta podľa hypotézy #o(n,iV), potom sa hodnota j (fi,lcl) nazýva v /38/ indexe kritéria φ v bode (/?, N). Posledný limit vo všeobecnosti nemusí existovať. Preto sa v dizertačnej práci okrem indexu kritéria uvažuje aj hodnota lim (_IlnP(tor > a N (J3))) =if(P,P), ktorú autor dizertačnej práce analogicky nazývaný dolný index kritéria φ v bode (/3,H) . Tu a nižšie lim adg, lim а# jV-уо ЛГ-оо v tomto poradí znamenajú dolnú a hornú hranicu postupnosti (odg) pre N -> yu,

Ak existuje index kritéria, dolný index kritéria sa s ním zhoduje. Spodný index kritéria vždy existuje. Ako väčšiu hodnotu index kritéria (dolný index kritéria), tým lepšie je štatistické kritérium v ​​posudzovanom zmysle. V /38/ problém zostavenia kritérií dohody pre zovšeobecnené dispozičné schémy s najvyššia hodnota index kritéria v triede kritérií, ktoré odmietajú hypotézu Ho(n,N) pre kde m > 0 je nejaká pevné číslo, postupnosť konštánt je vybraná na základe danej hodnoty mocniny kritéria pre postupnosť alternatív, ft t je reálna funkcia t + 1 argumentov.

Kritériové indexy sú určené pravdepodobnosťou veľkých odchýlok. Ako sa ukázalo v /38/, hrubá (až do logaritmickej ekvivalencie) asymptotika pravdepodobností veľkých odchýlok separovateľnej štatistiky, keď je splnená Cramerova podmienka pre náhodná premenná/() je určené príslušnou informačnou vzdialenosťou Kull-Bak - Leibler - Sanov (náhodná premenná q spĺňa Cramerovu podmienku, ak pre nejaké # > 0 je generujúca funkcia momentov Me f7? konečná v intervale \t\

Otázka pravdepodobnosti veľkých odchýlok štatistík od neobmedzeného počtu fi r, ako aj ľubovoľných separovateľných štatistík, ktoré nespĺňajú Cramerovu podmienku, zostala otvorená. To neumožnilo definitívne vyriešiť problém konštrukcie kritérií na testovanie hypotéz vo všeobecných schémach umiestnenia s najvyššou mierou tendencie k nule pravdepodobnosti chyby I. typu s približovaním sa alternatív v triede kritérií založených na štatistických údajoch forma (0,4). Relevantnosť dizertačného výskumu je daná potrebou dokončiť riešenie zadaného problému.

Cieľom dizertačnej práce je zostaviť kritériá zhody s najvyššou hodnotou indexu kritéria (dolný index kritéria) pre testovanie hypotéz vo výberovej schéme bez návratu v triede kritérií, ktoré odmietajú hypotézu U(n, N) pre 0(iv"iv"-""" o """)>CiV" (0" 7) kde φ je funkciou spočítateľného počtu argumentov a parametre n, N sa menia v centrálnej oblasti.

V súlade s účelom štúdie boli stanovené nasledovné úlohy: preskúmať vlastnosti entropie a informačnej vzdialenosti Kull-Bak - Leibler - Sanov pre diskrétne rozdelenia s počítateľným počtom výsledkov; študovať pravdepodobnosti veľkých odchýlok štatistiky formulára (0,4); študovať pravdepodobnosti veľkých odchýlok symetrických separovateľných štatistík (0,3), ktoré nespĺňajú Cramerovu podmienku; - nájsť takú štatistiku, že kritérium zhody skonštruované na jeho základe na testovanie hypotéz vo všeobecných schémach umiestnenia má najvyššiu hodnotu indexu v triede kritérií formulára (0,7).

Vedecká novinka: je daný koncept zovšeobecnenej metriky - funkcie, ktorá pripúšťa nekonečné hodnoty a spĺňa axiómy identity, symetrie a trojuholníkovej nerovnosti. Nájde sa zovšeobecnená metrika a indikujú sa množiny, na ktorých sú funkcie entropie a informačnej vzdialenosti, definované na skupine diskrétnych rozdelení s spočítateľným počtom výsledkov, v tejto metrike spojité; vo zovšeobecnenej schéme umiestnenia bola nájdená hrubá (až logaritmická ekvivalencia) asymptotika pre pravdepodobnosti veľkých odchýlok štatistiky tvaru (0,4), ktoré spĺňajú zodpovedajúcu formu Cramerovej podmienky; vo zovšeobecnenej schéme umiestnenia bola nájdená hrubá (až logaritmická ekvivalencia) asymptotika pre pravdepodobnosti veľkých odchýlok symetrickej separovateľnej štatistiky, ktorá nespĺňa Cramerovu podmienku; v triede kritérií formulára (0,7) sa zostrojí kritérium s najvyššou hodnotou indexu kritéria.

Vedecká a praktická hodnota. Práca rieši množstvo otázok o správaní pravdepodobností veľkých odchýlok v zovšeobecnených schémach umiestnenia. Získané výsledky je možné použiť v vzdelávací proces v odboroch matematická štatistika a teória informácie, pri štúdiu štatistických postupov na analýzu diskrétnych postupností a boli použité v /3/, /21/ pri zdôvodňovaní bezpečnosti jednej triedy informačných systémov. Ustanovenia na obranu: zníženie problému testovania hypotézy z jedinej sekvencie farieb loptičiek zo skutočnosti, že táto sekvencia je získaná ako výsledok voľby bez návratu až do vyčerpania loptičiek z urny obsahujúcej loptičky dvoch farieb a každá takáto voľba má rovnakú pravdepodobnosť, na konštrukciu kritérií zhody na testovanie hypotéz v zodpovedajúcom zovšeobecnenom usporiadaní; kontinuita entropických a Kullback-Leibler-Sanovových informačných vzdialenostných funkcií na nekonečne-rozmernom simplexe so zavedenou logaritmickou zovšeobecnenou metrikou; veta o hrubej (až logaritmickej ekvivalencii) asymptotike pravdepodobností veľkých odchýlok symetrickej separovateľnej štatistiky, ktorá nespĺňa Cramerovu podmienku vo zovšeobecnenej schéme umiestnenia v semi-exponenciálnom prípade; veta o hrubých (až do logaritmickej ekvivalencie) asymptotike pravdepodobnosti veľkých odchýlok pre štatistiku tvaru (0,4); - vytvorenie kritéria vhodnosti pre testovanie hypotéz v zovšeobecnených usporiadaniach s najvyššou hodnotou indexu v triede kritérií formulára (0,7).

Schválenie práce. Výsledky boli prezentované na seminároch Katedry diskrétnej matematiky Matematického ústavu pomenovaného po ňom. V. A. Steklov RAS, oddelenie informačnej bezpečnosti ITM&VT pomenované po. S. A. Lebedev RAS a na: piatom celoruskom sympóziu o aplikovanej a priemyselnej matematike. Jarné zasadnutie, Kislovodsk, 2. - 8. máj 2004; šiesta medzinárodná Petrozavodská konferencia "Pravdepodobnostné metódy v diskrétnej matematike" 10. - 16. júna 2004; druhý Medzinárodná konferencia"Informačné systémy a technológie (IST" 2004)", Minsk, 8. - 10. november 2004;

Medzinárodná konferencia "Moderné problémy a nové trendy v teórii pravdepodobnosti", Chernivtsi, Ukrajina, 19. - 26. júna 2005.

Hlavné výsledky práce boli použité vo výskumnej práci „Apológia“, realizovanej ITMiVT RAS. S. A. Lebedev v záujme Federálnej služby pre technickú a exportnú kontrolu Ruskej federácie a boli zaradené do správy o realizácii etapy výskumu /21/. Niektoré výsledky dizertačnej práce boli zahrnuté do výskumnej správy „Vývoj matematických problémov kryptografie“ Akadémie kryptografie Ruskej federácie za rok 2004 /22/.

Autor vyjadruje hlbokú vďaku vedeckému školiteľovi, doktorovi fyzikálnych a matematických vied A. F. Ronzhinovi a vedeckému konzultantovi doktorovi fyzikálnych a matematických vied staršiemu výskumníkovi A. V. Knyazevovi. Autor vyjadruje vďaku doktorovi fyzikálnych a matematických vied profesorovi A. M. Zubkovovi a kandidátovi fyzikálnych a matematických vied Matematické vedy I. A. Kruglovovi za pozornosť, ktorú venoval práci a množstvo cenných pripomienok.

Štruktúra a obsah práce.

Prvá kapitola skúma vlastnosti entropie a informačnej vzdialenosti pre rozdelenia na množine nezáporných celých čísel.

V prvom odseku prvej kapitoly sú uvedené notácie a sú uvedené potrebné definície. Používajú sa najmä nasledujúce označenia: x = (:ro,i, ---) - nekonečnerozmerný vektor s počítateľným počtom komponentov;

Н(х) - -Ex^oXvlnx,; trunc m (x) = (x 0,x 1,...,x t,0,0,...); SI* = (x, x u > 0, u = 0,1,..., E~ o x„ 0,v = 0,1,...,E? =Q x v = 1); fi 7 = (x Є O, Lo vx v = 7); %] = (хЄП,Эо»х и

16 mі = e o ** v \ &c = Ue>1 | 5 є Q 7) o

Je jasné, že množina Vt zodpovedá rodine rozdelení pravdepodobnosti na množine nezáporných celých čísel, P 7 - rodine rozdelení pravdepodobnosti na množine nezáporných celých čísel s matematickým očakávaním 7 - Ak y Є Q, potom pre є > 0 bude množina označená O e (y)

Оє(у) - (х eO,x v

V druhom odseku prvej kapitoly je dokázaná veta o ohraničenosti entropie diskrétnych rozdelení s obmedzeným matematickým očakávaním.

Veta 1. O ohraničenosti entropie diskrétnych rozdelení s ohraničeným matematickým očakávaním. Pre akýkoľvek železobetón 7

Ak x Є fi 7 zodpovedá geometrickému rozdeleniu s matematickým rozdelením 7; to jest

7 x„ = (1- р)р\ v = 0,1,..., kde р = --,

1 + 7 potom platí rovnosť H(x) = F(1).

Tvrdenie vety možno považovať za výsledok formálnej aplikácie Lagrangeovej metódy podmienených multiplikátorov v prípade nekonečného počtu premenných. Veta, že jediné rozdelenie na množine (k, k + 1, k + 2,...) s daným matematickým očakávaním a maximálnou entropiou je geometrické rozdelenie s daným matematickým očakávaním je uvedené (bez dôkazu) v /47 /. Autor však podal prísny dôkaz.

V treťom odseku prvej kapitoly je uvedená definícia zovšeobecnenej metriky – metriky, ktorá umožňuje nekonečné hodnoty.

Pre x,y Є Гі je funkcia p(x,y) definovaná ako minimum є > O s vlastnosťou y ​​v e~ e

Ak také є neexistuje, potom sa predpokladá, že p(x,y) = oo.

Je dokázané, že funkcia p(x,y) je zovšeobecnená metrika na rodine rozdelení na množine nezáporných celých čísel, ako aj na celej množine Ci*. Namiesto e v definícii metriky p(x,y) môžete použiť akékoľvek iné kladné číslo okrem 1. Výsledné metriky sa budú líšiť o multiplikatívnu konštantu. Označme J(x, y) informačnú vzdialenosť

Tu a nižšie sa predpokladá, že 0 In 0 = 0,01n ^ = 0. Informačná vzdialenosť je definovaná pre také x, y, že x v - 0 pre všetky a také, že y v = 0. Ak táto podmienka nie je splnená, potom budeme predpokladať J (S,y) = ko. Nechajte A C 1 $. Potom budeme označovať J(Ay)="mU(x,y).

Dajme J(Jb,y) = 00.

V štvrtom odseku prvej kapitoly je uvedená definícia kompaktnosti funkcií definovaných na množine P*. Kompaktnosť funkcie s spočítateľným počtom argumentov znamená, že s akýmkoľvek stupňom presnosti možno hodnotu funkcie aproximovať hodnotami tejto funkcie v bodoch, kde je len konečný počet argumentov nenulový. Je dokázaná kompaktnosť funkcií entropie a informačnej vzdialenosti.

Pre akúkoľvek 0

Ak pre nejakú 0 0 je funkcia \(x) = J(x,p) kompaktná na množine 7 ] P O g (p).

Piaty odsek prvej kapitoly rozoberá vlastnosti informačnej vzdialenosti definovanej v nekonečne-rozmernom priestore. V porovnaní s konečnorozmerným prípadom sa kvalitatívne mení situácia s kontinuitou funkcie informačnej vzdialenosti. Ukazuje sa, že funkcia informačnej vzdialenosti nie je spojitá na množine Г2 v žiadnej z metrík pi(,y)= E|z„-i/„|, (

00 \ 2 p 2 (x,y) = sup (x^-ij^.

Pre entropické funkcie H(x) a informačnú vzdialenosť J(x,p) je dokázaná platnosť nasledujúcich nerovníc:

1. Pre ľubovoľné x, x" Є fi \H(x) - H(x")\

2. Ak pre niektoré х,р є П existuje є > 0 také, že х є О є (р), potom pre ľubovoľné X і Є Q \J(x,p) - J(x",p)\

Z týchto nerovností, berúc do úvahy vetu 1, vyplýva, že funkcie entropie a informačnej vzdialenosti sú rovnomerne spojité na zodpovedajúcich podmnožinách fi v metrike p(x,y), a to:

Pre ľubovoľných 7 takých, že 0

Ak pre nejakých 7o, O

20 potom pre ľubovoľnú 0 0 je funkcia \p(x) = J(x t p) rovnomerne spojitá na množine 7 ] P O є (p) v metrike p(x,y).

Je uvedená definícia neextrémnej funkcie. Neextrémna podmienka znamená, že funkcia nemá lokálne extrémy, alebo funkcia nadobúda rovnaké hodnoty pri lokálnych minimách (lokálnych maximách). Neextrémny stav oslabuje požiadavku absencie lokálnych extrémov. Napríklad funkcia sin x na množine reálnych čísel má lokálne extrémy, ale spĺňa neextrémnu podmienku.

Nech pre nejaké 7 > 0 je oblasť A daná podmienkou

А = (хЄЇ1 1 ,ф(х) >а), (0,9) kde Ф(х) je funkcia skutočnej hodnoty, а je nejaká reálna konštanta, inf Ф(х)

A 3y, vyvstala otázka, n P „ za akých podmienok „a „ φ pre i_ „ara- q metrov n, N v centrálnej oblasti, ^ -> 7, pre všetky ich dostatočne veľké hodnoty budú takéto non -záporné celé čísla ko, k\, ..., k n, aké ko + hi + ... + k n = N,

21 k\ + 2/... + nk n - N

Kq k\ k n . ^"iv"-"iv" 0 " 0 "-")>a -

Je dokázané, že na to stačí vyžadovať, aby funkcia φ bola neextrémna, kompaktná a spojitá v metrike p(x,y), a aby aspoň pre jeden bod vyhovovalo x (0,9), pre niektoré є > 0 existuje konečný moment stupňa 1 + є Ml + = і 1+є x a 0 pre ľubovoľné u = 0,1,....

V druhej kapitole študujeme hrubú (až logaritmickú ekvivalenciu) asymptotiku pravdepodobnosti veľkých odchýlok funkcií od D = (fio,..., cn, 0,...) - počet buniek s daným vyplnenie centrálnej oblasti variácie parametrov N,n . Hrubá asymptotika pravdepodobnosti veľkých odchýlok postačuje na štúdium indexov kritérií dobrej zhody.

Nech sú náhodné premenné ^ v (0.2) identicky rozdelené a

Р(Сі = к)=рьк = 0,1,... > P(z) - generujúca funkcia náhodnej premennej i - konverguje v kruhu s polomerom 1

22 Označme p(.) = (p(ad = o),P№) = i),...).

Ak existuje riešenie z 1 rovnice

M(*) = 7, potom je jedinečný /38/. V nasledujúcom budeme predpokladať, že Pjfc>0,fc = 0,l,....

V prvom odseku prvého odseku druhej kapitoly je asymptotika logaritmov pravdepodobností tvaru -m^1nP(th) = ^,...,/ = K)-

Nasledujúca veta je dokázaná.

Veta 2. Hrubá lokálna veta o pravdepodobnosti veľkých odchýlok. Nech n, N -* ko také, že ->7>0

Výrok vety vyplýva priamo zo vzorca pre spoločné rozdelenie /do, A*b / v /26/ a nasledujúceho odhadu: ak nezáporné celočíselné hodnoty fii,fi2,/ spĺňajú podmienku /I1 + 2 // 2 + ... + 71/ = 71, potom počet nenulových hodnôt medzi nimi je 0 (l/n). Toto je hrubý odhad a netvrdí, že je nový. Počet nenulových τ v zovšeobecnených schémach usporiadania nepresahuje hodnotu maximálneho zaplnenia buniek, ktorá v centrálnej oblasti s pravdepodobnosťou klesajúcou k 1 nepresahuje hodnotu 0(\n) /25/, /27/. Napriek tomu je výsledný odhad 0(y/n) spokojný s pravdepodobnosťou 1 a je dostatočný na získanie hrubej asymptotiky.

V druhom odseku prvého odseku druhej kapitoly nájdeme hodnotu limity, kde adg je postupnosť reálnych čísel konvergujúcich k nejakému a Є R, φ(x) je funkcia s reálnou hodnotou. Nasledujúca veta je dokázaná.

Veta 3. Hrubá integrálna veta o pravdepodobnosti veľkých odchýlok. Nech sú splnené podmienky vety 2, pre nejaké r > 0, (> 0) je reálna funkcia φ(x) kompaktná a rovnomerne spojitá v metrike p na množine

A = 0 rH (p(r 1))nP bn] a spĺňa podmienku neextremality na množine Г2 7 . Ak pre nejakú konštantu a taká, že inf f(x)

24 je vektor p a fi 7 P 0 r (p(z 7)); také že

Ф(ra) > а J(( (x) >а,хЄ П 7 ),р(2; 7)) = J(p a ,p(^y)), mo pre ľubovoľnú postupnosť а^ konvergujúcu k а, ^ -^\nP(f(^,^,...)>a m) = Pr a,p(r,)). (0,11)

S dodatočnými obmedzeniami funkcie φ(x) možno informačnú vzdialenosť J(pa,P(zy)) v (2.3) vypočítať presnejšie. Totiž, nasledujúca veta je pravdivá. Veta 4. O informačnej vzdialenosti. Nechajte chvíľu 0

Či nejaké r > 0, C > 0, reálna funkcia φ(x) a jej parciálne derivácie prvého rádu sú kompaktné a rovnomerne spojité vo zovšeobecnenej metrike p(x, y) na množine

A = O g (p)PP bn] , existuje T > 0, R > 0 také, že pre všetky \t\ O p v v 1+ z u exp(i--ph(x))

0(p(gaL)) = a, / h X v \ Z, t) T, u = oX LJ (Z, t)

Potom p(za , t a) Є ft, u J((z Є Л,0(z) = а),р) = J(p(za ,ta),p) d _ 9 = 7111 + t a «-^ OFaL)) - V 2Wexp( a --0(p(g a,i a))). j/=0 CnEi/ ^_o CX(/

Ak je funkcia f(x) lineárna funkcia a funkcia fix) je definovaná pomocou rovnosti (0,5), potom sa podmienka (0,12) zmení na Cramerovu podmienku pre náhodnú premennú f(,(z)). Podmienka (0,13) je forma podmienky (0,10) a používa sa na preukázanie prítomnosti v doménach tvaru (x Є Г2, φ(x) > a) aspoň jedného bodu od 0 (n, N) pre všetky dostatočne veľké n, N.

Nech v ()(n,iV) = (/гі,...,/ijv) je frekvenčný vektor v zovšeobecnenom rozložení (0,2). Ako dôsledok vety 3 a 4 je formulovaná nasledujúca veta.

Veta 5. Hrubá integrálna veta o pravdepodobnosti veľkých odchýlok symetrickej separovateľnej štatistiky vo zovšeobecnenej schéme umiestnenia.

Nech n, N -> co také, že jfr - 7» 0 0,R > 0 také, že pre všetky \t\ Potom pre ľubovoľnú postupnosť a# konvergujúcu k a, 1 iv =

Túto vetu prvýkrát dokázal A.F. Ronzhin v /38/ pomocou metódy sedlového bodu.

V druhom odseku druhej kapitoly sú študované pravdepodobnosti veľkých odchýlok separovateľných štatistík vo zovšeobecnenom umiestnení cxj^iax v prípade nesplnenia Cramerovej podmienky pre náhodnú premennú /((z)). Cramerova podmienka pre náhodnú premennú f(,(z)) nie je splnená, najmä ak (z) je Poissonova náhodná premenná a /(x) = x 2. Všimnite si, že Cramerova podmienka pre samotnú oddeliteľnú štatistiku vo všeobecných schémach prideľovania je vždy splnená, pretože pre akékoľvek pevné n, N je číslo možné výsledky v týchto schémach, samozrejme.

Ako je uvedené v /2/, ak Cramerova podmienka nie je splnená, potom na nájdenie asymptotík pravdepodobností veľkých odchýlok súčtov identicky rozdelených náhodných premenných je potrebné splniť ďalšie podmienky pre správnu zmenu rozdelenia. termínu. Práca (uvažuje prípad zodpovedajúci splneniu podmienky (3) v /2/, teda sedemexponenciálny prípad. Nech P(i = k) > O pre všetky

28 k = 0,1,... a funkcia p(k) = -\nP(^ = k), môže pokračovať na funkciu spojitého argumentu - pravidelne sa meniacu funkciu rádu p, 0 oo P(tx) , r v P(t)

Nech je funkcia f(x) pre dostatočne veľké hodnoty argumentu kladná, prísne rastúca, pravidelne sa meniaca funkcia rádu d>1,^ Na zvyšku číselnej osi

Potom s. V. /(i) má momenty ľubovoľného rádu a nespĺňa Cramerovu podmienku, ip(x) = o(x) ako x -> oo a platí nasledujúca veta 6. Nech je funkcia ip(x) monotónne neklesajúca pre dostatočne veľké x funkcia ^p nerastie monotónne, n, N --> oo tak, že jf - A, 0 b(z\), kde b(z) = M/(1(2)), tam je limita l(n,lg)) > cN] = "(c ~ b(zx))l b""ї

Z vety b vyplýva, že ak Cramerova podmienka nie je splnená, limita (^ lim ~\nP(L N (h(n,N)) > cN) = 0, "" Dv

L/-too iV a ktorá dokazuje platnosť hypotézy vyjadrenej v /39/. Hodnota indexu kritéria zhody vo všeobecných schémach umiestnenia -^ keď nie je splnená Cramerova podmienka, je teda vždy rovná nule. V tomto prípade sa v triede kritérií, keď je splnená Cramerova podmienka, skonštruujú kritériá s nenulovou hodnotou indexu. Z toho môžeme vyvodiť záver, že použitie kritérií, ktorých štatistiky nespĺňajú Cramerovu podmienku, napríklad chí-kvadrát test v polynómovej schéme, na zostavenie testov dobrej zhody na testovanie hypotéz pre nekonvergujúce alternatívy v uvedenom zmysle. je asymptoticky neúčinný. K podobnému záveru došlo aj v /54/ na základe výsledkov porovnania štatistiky chí-kvadrát a maximálnej pravdepodobnosti v polynómovej schéme.

Tretia kapitola rieši problém konštrukcie kritérií dobrej zhody s najväčšou hodnotou indexu kritéria (najväčšia hodnota dolného indexu kritéria) na testovanie hypotéz vo všeobecných schémach umiestnenia. Na základe výsledkov prvej a druhej kapitoly o vlastnostiach entropických funkcií, informačnej vzdialenosti a pravdepodobnosti veľkých odchýlok je v tretej kapitole nájdená funkcia tvaru (0,4) tak, aby bolo skonštruované kritérium dobrej zhody na jeho základe má najväčšiu hodnotu presného dolného indexu v triede posudzovaných kritérií. Nasledujúca veta je dokázaná. Veta 7. O existencii indexu. Nech sú splnené podmienky vety 3, 0 ,... - postupnosť alternatívnych rozdelení, 0^(/3, iV) - maximálny počet, pre ktorý podľa hypotézy Н Р (hľa, nerovnosť

P(φ(^^,...)>a φ (P,M))>(3, existuje limita limjv-»oo o>φ(P, N) - a. Potom v bode (/3 , N) existuje kritérium indexu f

Zff,K) = 3((φ(x) >a,xe ZD.P^)).

V tomto prípade zf(0,th)N NP(e(2 7) = fc)"

Záver stanovuje dosiahnuté výsledky v ich vzťahu k všeobecnému cieľu a konkrétnym úlohám kladeným v dizertačnej práci, formuluje závery na základe výsledkov dizertačnej rešerše, naznačuje vedeckú novosť, teoretickú a praktickú hodnotu práce, ako aj konkrétne vedecké úlohy identifikované autorom a ktorých riešenie sa javí ako relevantné .

Krátky prehľad literatúry k výskumnej téme.

Práca sa zaoberá problémom konštrukcie kritérií zhody vo všeobecných schémach umiestnenia s najvyššou hodnotou indexu kritéria v triede funkcií formy (0,4) s nekonvergovanými alternatívami.

Zovšeobecnené schémy usporiadania zaviedol V.F.Kolchin v /24/. Veličiny fi r v polynómovej schéme sa nazývali počet buniek s r peletami a boli podrobne študované v monografii V. F. Kolchin, B. A. Sevastyanov, V. P. Chistyakov /27/. Hodnoty \i r v zovšeobecnených usporiadaniach študoval V.F. Kolchin v /25/, /26/. Štatistiky vo forme (0,3) prvýkrát uvažoval Yu.I. Medvedev v /30/ a nazývali sa separovateľná (aditívne separovateľná) štatistika. Ak funkcie /„ v (0.3) nezávisia od u, takáto štatistika sa volala v /31/ symetrickej separovateľnej štatistike. Asymptotické správanie momentov separovateľnej štatistiky v zovšeobecnených alokačných schémach získal G. I. Ivchenko v /9/. V /23/ boli uvažované aj limitné vety pre zovšeobecnenú schému usporiadania. Prehľady výsledkov limitných viet a kritérií zhody v diskrétnych pravdepodobnostných schémach typu (0,2) poskytli V. A. Ivanov, G. I. Ivčenko, Ju. I. Medvedev v /8/ a G. I. Ivčenko, Yu. I. Medvedev, A. F. Ronzhin v r. /14/. Kritériá dohody pre zovšeobecnené usporiadanie zvážil A.F. Ronzhin v /38/.

Porovnanie vlastností štatistických kritérií v týchto prácach bolo uskutočnené z hľadiska relatívnej asymptotickej účinnosti. Uvažoval sa prípad konvergujúcich (susedných) hypotéz - účinnosť v zmysle Pitmana a nekonvergujúcich hypotéz - účinnosť v zmysle Bahadur, Hodges - Lehman a Chernov. Spojenie medzi rôzne druhy o relatívnej účinnosti štatistických testov sa hovorí napríklad v /49/. Ako vyplýva z výsledkov Yu.I. Medvedeva v /31/ o rozdelení separovateľných štatistík v polynomickej schéme, kritérium založené na chí-kvadrát štatistike má najväčšiu asymptotickú silu pri konvergentných hypotézach v triede separovateľných štatistík na frekvencie výsledkov v polynómovej schéme. Tento výsledok zovšeobecnil A.F. Ronzhin pre obvody typu (0,2) v /38/. I. I. Viktorova a V. P. Chistyakov v /4/ skonštruovali optimálne kritérium pre polynómovú schému v triede lineárnych funkcií fi r. A.F. Ronzhin v /38/ skonštruoval kritérium, ktoré vzhľadom na postupnosť alternatív, ktoré nie sú blízke nulovej hypotéze, minimalizuje logaritmickú rýchlosť, pri ktorej má pravdepodobnosť chyby prvého druhu tendenciu k nule, v triede štatistiky formulár (0,6). Porovnanie relatívnej výkonnosti štatistiky chí-kvadrát a maximálnej pravdepodobnosti pri približujúcich sa a nepribližujúcich sa hypotézach bolo vykonané v /54/. Práca sa zaoberala prípadom nekonvergujúcich hypotéz. Štúdium relatívnej štatistickej účinnosti kritérií pri nekonvergujúcich hypotézach si vyžaduje štúdium pravdepodobnosti extrémne veľkých odchýlok - rádovo 0 (u/n). Prvýkrát takýto problém pre polynomické rozdelenie s pevným počtom výsledkov riešil I. N. Sanov v /40/. Asymptotická optimalita testov dobrej zhody na testovanie jednoduchých a zložitých hypotéz pre multinomické rozdelenie v prípade konečného počtu výsledkov s nekonvergovanými alternatívami bola uvažovaná v /48/. Vlastnosti informačnej vzdialenosti predtým uvažovali Kullback, Leibler /29/,/53/ a I. II. Sanov /40/, ako aj Hoeffding /48/. V týchto prácach sa kontinuita informačnej vzdialenosti zvažovala na konečne-rozmerných priestoroch v euklidovskej metrike. Viacerí autori uvažovali o postupnosti priestorov s narastajúcou dimenziou, napríklad v diele J. V. Prochorova /37/ alebo v diele V. I. Bogačeva, A. V. Kolesnikova /1/. Hrubé (až do logaritmickej ekvivalencie) teorémy o pravdepodobnosti veľkých odchýlok separovateľných štatistík vo všeobecných schémach umiestnenia za Cramerovej podmienky získal A.F. Roizhin v /38/. A. N. Timashev v /42/,/43/ získal presné (až do ekvivalencie) viacrozmerné integrálne a lokálne limitné vety o pravdepodobnosti veľkých odchýlok vektora fir^n, N),..., fi rs (n,N) , kde s, gi,..., r s sú pevné celé čísla,

Štatistickými problémami testovania hypotéz a odhadovania parametrov vo výberovej schéme bez návratnosti v trochu inej formulácii sa zaoberali G. I. Ivčenko, V. V. Levin, E. E. Timonina /10/, /15/, kde sa riešili úlohy odhadu pre konečnú populáciu, keď počet jeho prvkov je neznáma veličina, bola dokázaná asymptotická normalita multivariačnej S - štatistiky z nezávislých vzoriek s vo výberovej schéme bez reverzie. Problémom štúdia náhodných premenných spojených s opakovaniami v sekvenciách nezávislých pokusov sa zaoberali A. M. Zubkov, V. G. Michajlov, A. M. Shoitov v /6/, /7/, /32/, /33/, /34/. Analýza hlavných štatistických problémov odhadovania a testovania hypotéz v rámci všeobecný model Markova-Polya vykonali G.I.Ivčenko, Yu.I.Medvedev v /13/, pravdepodobnostný rozbor bol uvedený v /11/. Metódu určenia nejednotných mier pravdepodobnosti na množine kombinatorických objektov, ktorá nie je redukovateľná na zovšeobecnenú schému umiestnenia (0,2), opísali G. I. Ivchenko, Yu. I. Medvedev /12/. Množstvo problémov v teórii pravdepodobnosti, na ktoré možno získať odpoveď ako výsledok výpočtov pomocou opakujúcich sa vzorcov, naznačuje A. M. Zubkov v /5/.

Nerovnice pre entropiu diskrétnych rozdelení boli získané v /50/ (citované z abstraktu A. M. Zubkova v RZhMat). Ak (p n )Lo je rozdelenie pravdepodobnosti,

Рп = Е Рк, к=п A = supp^Pn+i

I + (In -f-) (X Rn - R n+1)

Рп= (x f 1)n+v n>Q. (0,15)

Všimnite si, že extrémne rozdelenie (0,15) je geometrické rozdelenie s matematickým očakávaním A a funkcia F(X) parametra (0,14) sa zhoduje s funkciou matematického očakávania vo vete 1.

Entropia diskrétnych rozdelení s ohraničeným matematickým očakávaním

Ak existuje index kritéria, dolný index kritéria sa s ním zhoduje. Spodný index kritéria vždy existuje. Čím vyššia je hodnota indexu kritéria (dolný index kritéria), tým lepšie je štatistické kritérium v ​​tomto zmysle. V /38/ sa riešil problém konštrukcie kritérií zhody pre zovšeobecnené rozloženia s najvyššou hodnotou indexu kritéria v triede kritérií, ktoré odmietajú hypotézu Ho(n,N) pre kde m 0 je nejaké pevné číslo, postupnosť konštantných jednotiek sa vyberá na základe danej hodnoty mocniny kritéria pre postupnosť alternatív, ft - reálna funkcia m + 1 argumentov.

Kritériové indexy sú určené pravdepodobnosťou veľkých odchýlok. Ako sa ukázalo v /38/, hrubá (až logaritmická ekvivalencia) asymptotika pravdepodobností veľkých odchýlok separovateľnej štatistiky pri splnení Cramerovej podmienky pre náhodnú premennú /() je určená zodpovedajúcim Kull-Bak-Leibler- Sanovova informačná vzdialenosť (náhodná premenná q spĺňa Cramerovu podmienku , ak pre nejaké # 0 je generujúca funkcia momentov Mef7? konečná v intervale \t\ H /28/).

Otázka pravdepodobnosti veľkých odchýlok štatistík od neobmedzeného počtu jedle, ako aj ľubovoľných oddeliteľných štatistík, ktoré nespĺňajú Cramerovu podmienku, zostala otvorená. To neumožnilo definitívne vyriešiť problém konštrukcie kritérií na testovanie hypotéz vo všeobecných schémach umiestnenia s najvyššou mierou tendencie k nule pravdepodobnosti chyby I. typu s približovaním sa alternatív v triede kritérií založených na štatistických údajoch forma (0,4). Relevantnosť dizertačného výskumu je daná potrebou dokončiť riešenie zadaného problému.

Cieľom dizertačnej práce je zostaviť kritériá zhody s najväčšou hodnotou indexu kritéria (dolný index kritéria) pre testovanie hypotéz vo výberovej schéme bez návratu v triede kritérií, ktoré odmietajú hypotézu U(n, N) pre kde φ je funkcia spočítateľného počtu argumentov a parametre n, N sa menia v centrálnej oblasti. V súlade so zámerom štúdie boli stanovené nasledovné úlohy: - študovať vlastnosti entropie a informačnej vzdialenosti Kull-Bak - Leibler - Sanov pre diskrétne rozdelenia s počítateľným počtom výsledkov; - študovať pravdepodobnosti veľkých odchýlok štatistiky formulára (0,4); - študovať pravdepodobnosti veľkých odchýlok symetrických separovateľných štatistík (0,3), ktoré nespĺňajú Cramerovu podmienku; - nájsť takú štatistiku, že kritérium zhody skonštruované na jeho základe na testovanie hypotéz vo všeobecných schémach umiestnenia má najvyššiu hodnotu indexu v triede kritérií formulára (0,7). Vedecká novinka: - je daný pojem zovšeobecnená metrika - funkcia, ktorá pripúšťa nekonečné hodnoty a spĺňa axiómy identity, symetrie a trojuholníkovej nerovnosti. Nájde sa zovšeobecnená metrika a indikujú sa množiny, na ktorých sú funkcie entropie a informačnej vzdialenosti, definované na skupine diskrétnych rozdelení s spočítateľným počtom výsledkov, v tejto metrike spojité; - vo zovšeobecnenej schéme umiestnenia bola nájdená hrubá (až logaritmická ekvivalencia) asymptotika pre pravdepodobnosti veľkých odchýlok štatistiky tvaru (0,4), ktoré spĺňajú zodpovedajúcu formu Cramerovej podmienky; - vo zovšeobecnenej schéme umiestnenia bola nájdená hrubá (až logaritmická ekvivalencia) asymptotika pre pravdepodobnosti veľkých odchýlok symetrických separovateľných štatistík, ktoré nespĺňajú Cramerovu podmienku; - v triede kritérií formulára (0,7) sa zostrojí kritérium s najvyššou hodnotou indexu kritéria. Vedecká a praktická hodnota. Práca rieši množstvo otázok o správaní pravdepodobností veľkých odchýlok v zovšeobecnených schémach umiestnenia. Získané výsledky je možné využiť vo vzdelávacom procese v odboroch matematická štatistika a teória informácie, pri štúdiu štatistických postupov pri analýze diskrétnych postupností a boli použité v /3/, /21/ na zdôvodnenie bezpečnosti jedného triedy informačných systémov. Opatrenia predložené na obhajobu: - zmenšenie problému testovania hypotézy z jedinej sekvencie farieb loptičiek z toho, že táto sekvencia je získaná ako výsledok výberu bez vrátenia až do vyčerpania loptičiek z urny obsahujúcej dve loptičky farby, a každý takýto výber má rovnakú pravdepodobnosť, ku konštrukcii zhody kritérií na testovanie hypotéz v príslušnom zovšeobecnenom usporiadaní; - spojitosť entropických a Kullback-Leibler-Sanovových informačných vzdialenostných funkcií na nekonečne-rozmernom simplexe so zavedenou logaritmickou zovšeobecnenou metrikou; - teorém o hrubej (až logaritmickej ekvivalencii) asymptotike pravdepodobnosti veľkých odchýlok symetrickej separovateľnej štatistiky, ktorá nespĺňa Cramerovu podmienku vo zovšeobecnenej schéme umiestnenia v semi-exponenciálnom prípade;

Kontinuita informačnej vzdialenosti Kullback - Leibler - Sanov

Zovšeobecnené schémy usporiadania zaviedol V.F.Kolchin v /24/. Veličiny jedľa v polynomickej schéme sa nazývali počet buniek s r peliet a boli podrobne študované v monografii V. F. Kolchin, B. A. Sevastyanov, V. P. Chistyakov /27/. Hodnoty \іr v zovšeobecnených usporiadaniach študoval V.F. Kolchin v /25/,/26/. Štatistiky vo forme (0,3) prvýkrát uvažoval Yu.I. Medvedev v /30/ a nazývali sa separovateľná (aditívne separovateľná) štatistika. Ak funkcie /„ v (0.3) nezávisia od u, takáto štatistika sa volala v /31/ symetrickej separovateľnej štatistike. Asymptotické správanie momentov separovateľnej štatistiky v zovšeobecnených alokačných schémach získal G. I. Ivčenko v /9/. V /23/ boli uvažované aj limitné vety pre zovšeobecnenú schému usporiadania. Prehľady výsledkov limitných viet a kritérií zhody v diskrétnych pravdepodobnostných schémach typu (0,2) poskytli V. A. Ivanov, G. I. Ivčenko, Ju. I. Medvedev v /8/ a G. I. Ivčenko, Yu. I. Medvedev, A. F. Ronzhin v r. /14/. Kritériá dohody pre zovšeobecnené usporiadanie zvážil A.F. Ronzhin v /38/.

Porovnanie vlastností štatistických kritérií v týchto prácach bolo uskutočnené z hľadiska relatívnej asymptotickej účinnosti. Uvažoval sa prípad konvergujúcich (susedných) hypotéz - účinnosť v zmysle Pitmana a nekonvergujúcich hypotéz - účinnosť v zmysle Bahadur, Hodges - Lehman a Chernov. Vzťah medzi rôznymi typmi štatistických testov relatívneho výkonu je diskutovaný napríklad v /49/. Ako vyplýva z výsledkov Yu.I. Medvedeva v /31/ o distribúcii separovateľných štatistík v polynómovej schéme, najväčšiu asymptotickú mocnosť má podľa konvergentných hypotéz v triede separovateľnej štatistiky o frekvenciách výsledkov v polynomickej schéme kritérium založené na štatistike chí-kvadrát. Tento výsledok zovšeobecnil A.F. Ronzhin pre obvody typu (0,2) v /38/. I. I. Viktorova a V. P. Chistyakov v /4/ skonštruovali optimálne kritérium pre polynómovú schému v triede lineárnych funkcií jedle. A.F. Ronzhin v /38/ skonštruoval kritérium, ktoré vzhľadom na postupnosť alternatív, ktoré nie sú blízke nulovej hypotéze, minimalizuje logaritmickú rýchlosť, pri ktorej má pravdepodobnosť chyby prvého druhu tendenciu k nule, v triede štatistiky formulár (0,6). Porovnanie relatívnej výkonnosti štatistiky chí-kvadrát a maximálnej pravdepodobnosti pri približujúcich sa a nepribližujúcich sa hypotézach bolo vykonané v /54/. Práca sa zaoberala prípadom nekonvergujúcich hypotéz. Štúdium relatívnej štatistickej účinnosti kritérií pri nekonvergujúcich hypotézach si vyžaduje štúdium pravdepodobnosti extrémne veľkých odchýlok - rádovo 0 (u/n). Prvýkrát takýto problém pre polynomické rozdelenie s pevným počtom výsledkov riešil I. N. Sanov v /40/. Asymptotická optimalita testov dobrej zhody na testovanie jednoduchých a zložitých hypotéz pre multinomické rozdelenie v prípade konečného počtu výsledkov s nekonvergovanými alternatívami bola uvažovaná v /48/. Vlastnosti informačnej vzdialenosti predtým uvažovali Kullback, Leibler /29/,/53/ a I. II. Sanov /40/, ako aj Hoeffding /48/. V týchto prácach sa kontinuita informačnej vzdialenosti zvažovala na konečne-rozmerných priestoroch v euklidovskej metrike. Viacerí autori uvažovali o postupnosti priestorov s narastajúcou dimenziou, napríklad v diele J. V. Prochorova /37/ alebo v diele V. I. Bogačeva, A. V. Kolesnikova /1/. Hrubé (až do logaritmickej ekvivalencie) teorémy o pravdepodobnosti veľkých odchýlok oddeliteľných štatistík vo všeobecných schémach umiestnenia za Cramerovej podmienky získal A. F. Roizhin v /38/. A. N. Timashev v /42/,/43/ získal presné (až do ekvivalencie) viacrozmerné integrálne a lokálne limitné vety o pravdepodobnosti veľkých odchýlok vektora.

Štúdium pravdepodobností veľkých odchýlok pri nesplnení Cramerovej podmienky pre prípad nezávislých náhodných veličín sa realizovalo v prácach A. V. Nagaeva /35/. Spôsob konjugovaných distribúcií popisuje Feller /45/.

Štatistickými problémami testovania hypotéz a odhadovania parametrov vo výberovej schéme bez návratnosti v trochu inej formulácii sa zaoberali G. I. Ivčenko, V. V. Levin, E. E. Timonina /10/, /15/, kde sa riešili úlohy odhadu pre konečnú populáciu, keď počet jeho prvkov je neznáma veličina, bola dokázaná asymptotická normalita multivariačnej S - štatistiky z nezávislých vzoriek s vo výberovej schéme bez reverzie. Problémom štúdia náhodných premenných spojených s opakovaniami v sekvenciách nezávislých pokusov sa zaoberali A. M. Zubkov, V. G. Mikhailov, A. M. Shoitov v /6/, /7/, /32/, /33/, /34/ . Analýzu hlavných štatistických problémov odhadu a testovania hypotéz v rámci všeobecného Markov-Pólyovho modelu vykonali G. I. Ivčenko, Yu. I. Medvedev v /13/, ktorej pravdepodobnostnú analýzu podal /11. /. Metódu určenia nejednotných mier pravdepodobnosti na množine kombinatorických objektov, ktorá nie je redukovateľná na zovšeobecnenú schému umiestnenia (0,2), opísali G. I. Ivchenko, Yu. I. Medvedev /12/. Množstvo problémov v teórii pravdepodobnosti, na ktoré možno získať odpoveď ako výsledok výpočtov pomocou opakujúcich sa vzorcov, naznačuje A. M. Zubkov v /5/.

Informačná vzdialenosť a pravdepodobnosti veľkých odchýlok separovateľných štatistík

Keď Cramerova podmienka nie je splnená, veľké odchýlky oddeliteľných štatistík vo zovšeobecnenej schéme umiestnenia v uvažovanom sedemexponenciálnom prípade sú určené pravdepodobnosťou odchýlky jedného nezávislého člena. Keď je Cramerova podmienka splnená, nie je to tak, ako je zdôraznené v /39/. Poznámka 10. Funkcia φ(x) je taká, že matematické očakávanie Jej АН) je konečné pre 0 t 1 a nekonečné pre t 1. Poznámka 11. Pre separovateľné štatistiky, ktoré nespĺňajú Cramerovu podmienku, limita (2.14) sa rovná 0, čo dokazuje platnosť hypotézy vyjadrenej v /39/. Poznámka 12. Pre chí-kvadrát štatistiku v polynómovej schéme pre n, ./V - co tak, že - A, z vety okamžite vyplýva, že Tento výsledok bol získaný v /54/ priamo. V tejto kapitole, v centrálnej oblasti zmien parametrov zovšeobecnených schém umiestňovania častíc v bunkách, je hrubá (až do logaritmickej ekvivalencie) asymptotika pravdepodobností veľkých odchýlok aditívne separovateľných štatistík od počtu buniek a funkcií od počtu sa našli bunky s danou náplňou.

Ak je Cramerova podmienka splnená, potom hrubá asymptotika pravdepodobností veľkých odchýlok je určená hrubou asymptotikou pravdepodobností, že sa dostaneme do postupnosti bodov s racionálnymi súradnicami, konvergujúcich vo vyššie uvedenom zmysle k bodu, v ktorom sa nachádza extrém je dosiahnutá zodpovedajúca informačná vzdialenosť.

Uvažoval sa sedem exponenciálny prípad nesplnenia Cramerovej podmienky pre náhodné premenné f(i),..., f(n), kde b, kr sú nezávislé náhodné premenné generujúce zovšeobecnenú schému rozkladu (0,2), f (k) je funkcia v definícii symetrickej aditívne separovateľnej štatistiky v (0.3). To znamená, že sa predpokladalo, že funkcie p(k) = - lnP(i = k) a f(k) možno rozšíriť na pravidelne sa meniace funkcie spojitého argumentu rádu p 0 a q 0, a p q. Ukázalo sa, že hlavný príspevok k hrubej asymptotike pravdepodobnosti veľkých odchýlok separovateľnej štatistiky v schémach zovšeobecneného umiestnenia má podobne hrubá asymptotika pravdepodobnosti ionizácie v zodpovedajúcej postupnosti bodov. Je zaujímavé poznamenať, že predtým bola teoréma o pravdepodobnosti veľkých odchýlok pre oddeliteľnú štatistiku dokázaná pomocou metódy sedlového bodu, pričom hlavný prínos k asymptotike tvoril jeden sedlový bod. Prípad, keď nie je splnená Cramerova podmienka, nie je splnená podmienka 2 kN, zostáva nepreskúmaný.

Ak Cramerova podmienka nie je splnená, potom uvedená podmienka nemusí byť splnená iba v prípade p 1. Ako priamo vyplýva z logaritmu príslušných pravdepodobností, pre Poissonovo rozdelenie a geometrické rozdelenie p = 1. Z výsledku asymptotiky pravdepodobností veľkých odchýlok pri nesplnení Cramerovej podmienky môžeme usúdiť, že kritériá, ktorých štatistiky nespĺňajú Cramerovu podmienku, majú výrazne nižšiu mieru tendencie k nule pravdepodobnosti chýb druhý typ s pevnou pravdepodobnosťou chyby prvého druhu a nekonvergujúce alternatívy v porovnaní s kritériami, ktorých štatistiky spĺňajú Cramerovu podmienku. Nech sa uskutoční výber z urny obsahujúcej N - 1 1 bielych ip-JV 1 čiernych guľôčok bez návratu až do úplného vyčerpania. Miesta bielych guľôčok vo voľbe 1 i\ ... r -i n - 1 spojíme s postupnosťou vzdialeností medzi susednými bielymi guľami hi,..., h takto: Potom hv l,v =1,.. ,N,M EjLi i/ - n- Definujme rozdelenie pravdepodobnosti na množine vektorov h = (hi,...,Lg) nastavením V(hv = rv,v = l,...,N ) kde i,...,lg - nezávislé nezáporné celočíselné náhodné premenné (r.v.), teda uvažujme zovšeobecnenú schému prideľovania (0,2). Distribúcia vektora h závisí od n,N, ale príslušné indexy budú vynechané tam, kde je to možné, aby sa zjednodušil zápis. Poznámka 14. Ak je každému z (]) spôsobov výberu loptičiek z urny priradená rovnaká pravdepodobnosť ( \) mn pre ľubovoľné r i,..., rg tak, že r„ 1,u = l,...,N , T,v=\ru = n, pravdepodobnosť, že vzdialenosti medzi susednými bielymi guličkami vo výbere nadobudnú tieto hodnoty

Kritériá založené na počte buniek vo všeobecných rozloženiach

Cieľom dizertačnej práce bolo skonštruovať kritériá vhodnosti pre testovanie hypotéz vo výberovej schéme bez návratu z urny s guľôčkami 2 farieb. Autor sa rozhodol preštudovať štatistiku na základe frekvencií vzdialeností medzi loptičkami rovnakej farby. V tejto formulácii sa problém zredukoval na úlohu testovania hypotéz vo vhodnom zovšeobecnenom rozložení.

Dizertačná práca obsahovala: vlastnosti entropie a informačnej vzdialenosti diskrétnych rozdelení s neobmedzeným počtom výsledkov s obmedzeným matematickým očakávaním; - bola získaná hrubá (až do logaritmickej ekvivalencie) asymptotika pravdepodobnosti veľkých odchýlok širokej triedy štatistík v schéme zovšeobecneného umiestnenia; - na základe získaných výsledkov bola skonštruovaná kriteriálna funkcia s najvyššou logaritmickou mierou sklonu k nule pravdepodobnosti chyby prvého druhu s pevnou pravdepodobnosťou chyby druhého druhu a nekonvergujúcich alternatív; - bolo dokázané, že štatistiky, ktoré nespĺňajú Cramerovu podmienku, majú nižšiu mieru konvergencie k nule pravdepodobnosti veľkých odchýlok v porovnaní so štatistikami, ktoré túto podmienku spĺňajú. Vedecká novinka práce je nasledovná. - je daný pojem zovšeobecnená metrika - funkcia, ktorá pripúšťa nekonečné hodnoty a spĺňa axiómy identity, symetrie a trojuholníkovej nerovnosti. Nájde sa zovšeobecnená metrika a indikujú sa množiny, na ktorých sú funkcie entropie a informačnej vzdialenosti, definované na skupine diskrétnych rozdelení s spočítateľným počtom výsledkov, v tejto metrike spojité; - vo zovšeobecnenej schéme umiestnenia bola nájdená hrubá (až logaritmická ekvivalencia) asymptotika pre pravdepodobnosti veľkých odchýlok štatistiky tvaru (0,4), ktoré spĺňajú zodpovedajúcu formu Cramerovej podmienky; - vo zovšeobecnenej schéme umiestnenia bola nájdená hrubá (až logaritmická ekvivalencia) asymptotika pre pravdepodobnosti veľkých odchýlok symetrických separovateľných štatistík, ktoré nespĺňajú Cramerovu podmienku; - v triede kritérií formulára (0,7) sa zostrojí kritérium s najvyššou hodnotou indexu kritéria. Práca rieši množstvo otázok o správaní pravdepodobností veľkých odchýlok v zovšeobecnených schémach umiestnenia. Získané výsledky je možné využiť vo vzdelávacom procese v odboroch matematická štatistika a teória informácie, pri štúdiu štatistických postupov pri analýze diskrétnych postupností a boli použité v /3/, /21/ na zdôvodnenie bezpečnosti jedného triedy informačných systémov. Niekoľko otázok však zostáva otvorených. Autor sa obmedzil na uvažovanie o centrálnej zóne zmien parametre n,N zovšeobecnené schémy na umiestnenie n častíc do /V buniek. Ak nositeľom rozdelenia náhodných veličín generujúcich zovšeobecnenú schému usporiadania (0.2) nie je množina tvaru r, r 4-1, r + 2,..., potom pri dokazovaní spojitosti informačnej dištančnej funkcie resp. pri štúdiu pravdepodobnosti veľkých odchýlok je potrebné vziať do úvahy aritmetickú štruktúru takéhoto nosiča, ktorá nebola zohľadnená v práci autora. Pre praktickú aplikáciu kritérií zostavených na základe navrhovanej funkcie s maximálnou hodnotou indexu je potrebné študovať jej rozdelenie tak pri nulovej hypotéze, ako aj pri alternatívach, vrátane konvergujúcich. Je tiež zaujímavé preniesť vyvinuté metódy a zovšeobecniť získané výsledky do iných pravdepodobnostných schém iných ako sú zovšeobecnené schémy umiestnenia. Ak //1,/ 2,-.. sú frekvencie vzdialeností medzi číslami výsledku 0 v binomickej schéme s pravdepodobnosťou výsledkov roja 1 -POj, potom je možné ukázať, že v tomto prípade z analýzy vzorca pre spoločnú distribúciu hodnôt \іт v zovšeobecnenej schéme umiestnenia, preukázanej v /26/, vyplýva, že rozdelenie (3.3) vo všeobecnosti nemožno vo všeobecnom prípade reprezentovať ako spoločné rozdelenie hodnôt cg v akejkoľvek zovšeobecnenej schéme umiestňovania častíc do buniek. Toto rozdelenie je špeciálnym prípadom rozdelenia na množine kombinatorických objektov zavedených v /12/. Preniesť výsledky dizertačnej práce pre zovšeobecnené schémy umiestnenia do tohto prípadu, o ktorom sa hovorilo v /52/, sa javí ako naliehavá úloha.

Exact Tests poskytuje dve ďalšie metódy na výpočet úrovní významnosti pre štatistiky dostupné prostredníctvom postupov krížových a neparametrických testov. Tieto metódy, presné a metódy Monte Carlo, poskytujú prostriedky na získanie presných výsledkov, keď vaše údaje nespĺňajú niektorý zo základných predpokladov potrebných na spoľahlivé výsledky pomocou štandardnej asymptotickej metódy. Dostupné iba v prípade, že ste si zakúpili možnosti presných testov.

Príklad. Asymptotické výsledky získané z malých súborov údajov alebo riedkych alebo nevyvážených tabuliek môžu byť zavádzajúce. Presné testy vám umožňujú získať presnú hladinu významnosti bez spoliehania sa na predpoklady, ktoré vaše údaje nemusia spĺňať. Napríklad výsledky prijímacej skúšky pre 20 hasičov v malom meste ukazujú, že všetkých päť bielych uchádzačov uspelo, zatiaľ čo výsledky černochov, ázijských a hispánskych uchádzačov sú zmiešané. Pearsonova chí-kvadrát testujúca nulovú hypotézu, že výsledky sú nezávislé od rasy, poskytuje asymptotickú hladinu významnosti 0,07. Tento výsledok vedie k záveru, že výsledky skúšky sú nezávislé od rasy skúšaného. Keďže však údaje obsahujú iba 20 prípadov a bunky očakávali frekvencie menšie ako 5, tento výsledok nie je dôveryhodný. Presný význam Pearsonovej chí-kvadrát je 0,04, čo vedie k opačnému záveru. Na základe presnej významnosti by ste dospeli k záveru, že výsledky skúšky a rasa skúšaného spolu súvisia. To demonštruje dôležitosť získania presných výsledkov, keď nie je možné splniť predpoklady asymptotickej metódy. Presný význam je vždy spoľahlivý, bez ohľadu na veľkosť, distribúciu, riedkosť alebo vyváženosť údajov.

Štatistiky. Asymptotický význam. Aproximácia Monte Carlo s úrovňou spoľahlivosti alebo presnou významnosťou.

  • Asymptotické. Hladina významnosti založená na asymptotickej distribúcii testovacej štatistiky. Typicky sa za významnú považuje hodnota menšia ako 0,05. Asymptotická významnosť je založená na predpoklade, že súbor údajov je veľký. Ak je súbor údajov malý alebo zle distribuovaný, nemusí to byť dobrým ukazovateľom významnosti.
  • Odhad Monte Carlo. Nezaujatý odhad presnej hladiny významnosti vypočítaný opakovaným odberom vzoriek z referenčného súboru tabuliek s rovnakými rozmermi a okrajmi riadkov a stĺpcov ako pozorovaná tabuľka. Metóda Monte Carlo vám umožňuje odhadnúť presnú významnosť bez spoliehania sa na predpoklady potrebné pre asymptotickú metódu. Táto metóda je najužitočnejšia, keď je súbor údajov príliš veľký na výpočet presnej významnosti, ale údaje nespĺňajú predpoklady asymptotickej metódy.
  • Presne. Presne sa vypočíta pravdepodobnosť pozorovaného výsledku alebo extrémnejšieho výsledku. , hladina významnosti menšia ako 0,05 sa považuje za významnú, čo naznačuje, že medzi riadkovými a stĺpcovými premennými zvyčajne existuje určitý vzťah.

IN moderné podmienky Záujem o analýzu dát neustále a intenzívne rastie v úplne iných oblastiach, akými sú biológia, lingvistika, ekonómia a samozrejme IT. Základom tejto analýzy sú štatistické metódy a každý sebarešpektujúci špecialista na dolovanie údajov im musí rozumieť.

Bohužiaľ, skutočne dobrá literatúra, ktorá môže poskytnúť matematicky presné dôkazy a jasné intuitívne vysvetlenia, nie je veľmi bežná. A tieto prednášky sú podľa mňa nezvyčajne dobré pre matematikov, ktorí rozumejú teórii pravdepodobnosti práve z tohto dôvodu. Vyučujú ich magistri na nemeckej univerzite Christian-Albrecht v programoch Matematika a Finančná matematika. A pre tých, ktorých zaujíma, ako sa tento predmet vyučuje v zahraničí, som preložil tieto prednášky. Preklad mi trval niekoľko mesiacov, prednášky som preriedil ilustráciami, cvičeniami a poznámkami pod čiarou k niektorým vetám. Podotýkam, že nie som profesionálny prekladateľ, ale jednoducho altruista a amatér v tejto oblasti, preto akceptujem akúkoľvek kritiku, ak bude konštruktívna.

O tomto sú v skratke prednášky:


Podmienené matematické očakávanie

Táto kapitola sa netýka priamo štatistiky, je však ideálna na začatie jej štúdia. Podmienené očakávanie je najlepšou voľbou na predpovedanie náhodného výsledku na základe už dostupných informácií. A to je tiež náhodná premenná. Tu uvažujeme o jeho rôznych vlastnostiach, ako je linearita, monotónnosť, monotónna konvergencia a iné.

Základy odhadu bodov

Ako odhadnúť distribučný parameter? Aké kritérium si mám na to zvoliť? Aké metódy by som mal použiť? Táto kapitola pomáha zodpovedať všetky tieto otázky. Tu uvádzame koncepty nestranného odhadu a rovnomerne nezaujatého odhadu minimálnej odchýlky. Vysvetľuje, odkiaľ pochádzajú chí-kvadrát a t-rozdelenia a prečo sú dôležité pri odhadovaní parametrov normálneho rozdelenia. Vysvetľuje, čo sú Rao-Kramerova nerovnosť a Fisherove informácie. Zavedený je aj koncept exponenciálnej rodiny, ktorý značne uľahčuje získanie dobrého odhadu.

Bayesovský a minimaxový odhad parametrov

Tu je popísaný odlišný filozofický prístup k hodnoteniu. V tomto prípade sa parameter považuje za neznámy, pretože ide o realizáciu určitej náhodnej premennej so známym (a priori) rozdelením. Pozorovaním výsledku experimentu vypočítame takzvané zadné rozdelenie parametra. Na základe toho môžeme získať Bayesovský odhad, kde je kritériom minimálna priemerná strata, alebo minimaxový odhad, ktorý minimalizuje maximálnu možnú stratu.

Dostatočnosť a úplnosť

Táto kapitola má vážny praktický význam. Dostatočná štatistika je taká funkcia vzorky, že na odhad parametra stačí uložiť len výsledok tejto funkcie. Takýchto funkcií je veľa a patrí medzi ne aj takzvaná minimálna dostatočná štatistika. Napríklad na odhad mediánu normálneho rozdelenia stačí uložiť len jedno číslo - aritmetický priemer za celú vzorku. Funguje to aj pre iné distribúcie, ako je distribúcia Cauchy? Ako pomôže dostatok štatistík pri výbere odhadov? Tu nájdete odpovede na tieto otázky.

Asymptotické vlastnosti odhadov

Snáď najdôležitejšou a nevyhnutnou vlastnosťou hodnotenia je jeho konzistentnosť, to znamená tendencia k skutočnému parametru s rastúcou veľkosťou vzorky. Táto kapitola popisuje, aké vlastnosti majú odhady, ktoré poznáme, získané štatistickými metódami popísanými v predchádzajúcich kapitolách. Zavádzajú sa pojmy asymptotická nezaujatosť, asymptotická účinnosť a Kullback-Leiblerova vzdialenosť.

Základy testovania

Okrem otázky, ako odhadnúť nám neznámy parameter, musíme nejako skontrolovať, či spĺňa požadované vlastnosti. Prebieha napríklad experiment na testovanie nového lieku. Ako viete, či je pri ňom vyššia pravdepodobnosť uzdravenia ako pri užívaní starých liekov? Táto kapitola vysvetľuje, ako sa takéto testy vytvárajú. Dozviete sa, čo je jednotne najsilnejší test, Neymanov-Pearsonov test, hladinu významnosti, interval spoľahlivosti a odkiaľ pochádza známy Gaussov test a t-test.

Asymptotické vlastnosti kritérií

Podobne ako hodnotenia, aj kritériá musia spĺňať určité asymptotické vlastnosti. Niekedy môžu nastať situácie, keď nie je možné skonštruovať požadované kritérium, avšak pomocou známej centrálnej limitnej vety zostrojíme kritérium, ktoré asymptoticky smeruje k nevyhnutnému. Tu sa dozviete, čo je hladina asymptotickej významnosti, metóda pravdepodobnostného pomeru a ako sú konštruované Bartlettov test a chí-kvadrát test nezávislosti.

Lineárny model

Túto kapitolu možno vnímať ako doplnok, a to aplikáciu štatistiky v prípade lineárnej regresie. Pochopíte, aké známky sú dobré a za akých podmienok. Dozviete sa, odkiaľ sa vzala metóda najmenších štvorcov, ako zostaviť testy a prečo je potrebná F-distribúcia.

Ako je uvedené v predchádzajúca časťŠtúdium klasických algoritmov sa v mnohých prípadoch môže uskutočniť pomocou asymptotických metód matematickej štatistiky, najmä pomocou CLT a metód dedičnosti konvergencie. Oddelenie klasickej matematickej štatistiky od potrieb aplikovaného výskumu sa prejavuje najmä tým, že rozšíreným monografiám chýba matematický aparát potrebný najmä na štúdium dvojvýberovej štatistiky. Ide o to, že na limit musíte ísť nie o jeden parameter, ale o dva – objemy dvoch vzoriek. Museli sme vypracovať vhodnú teóriu – teóriu dedičnosti konvergencie, uvedenú v našej monografii.

Výsledky takejto štúdie však budú musieť byť aplikované na konečné veľkosti vzoriek. S takýmto prechodom súvisí celý rad problémov. O niektorých z nich sa hovorilo v súvislosti so štúdiom vlastností štatistík konštruovaných zo vzoriek zo špecifických distribúcií.

Pri diskusii o vplyve odchýlok od počiatočných predpokladov na vlastnosti štatistických postupov však vznikajú ďalšie problémy. Aké odchýlky sa považujú za typické? Mali by sme sa zamerať na „najškodlivejšie“ odchýlky, ktoré najviac skresľujú vlastnosti algoritmov, alebo by sme sa mali zamerať na „typické“ odchýlky?

Pri prvom prístupe dostaneme garantovaný výsledok, ale „cena“ tohto výsledku môže byť príliš vysoká. Ako príklad uveďme univerzálnu Berry-Esseenovu nerovnosť pre chybu v CLT. A.A. úplne správne zdôrazňuje. Borovkov, že „rýchlosť konvergencie v skutočných problémoch sa spravidla ukazuje ako lepšia“.

Pri druhom prístupe vyvstáva otázka, ktoré odchýlky sa považujú za „typické“. Na túto otázku sa môžete pokúsiť odpovedať analýzou veľkého množstva reálnych údajov. Je celkom prirodzené, že odpovede rôznych výskumných skupín sa budú líšiť, ako vidno napríklad z výsledkov uvedených v článku.

Jednou z mylných predstáv je používať pri analýze možných odchýlok len špecifickú parametrickú rodinu – Weibullovo-Gnedenkove rozdelenia, trojparametrovú rodinu gama rozdelení atď. V roku 1927 Acad. Akadémia vied ZSSR S.N. Bernstein diskutoval o metodologickej chybe redukcie všetkých empirických rozdelení na štvorparametrovú Pearsonovu rodinu. Parametrické metódy štatistiky sú však stále veľmi obľúbené najmä medzi aplikovanými vedcami a vinu za túto mylnú predstavu nesú predovšetkým učitelia štatistických metód (pozri nižšie, ako aj článok).

15. Výber jedného z mnohých kritérií na testovanie konkrétnej hypotézy

V mnohých prípadoch bolo vyvinutých mnoho metód na vyriešenie konkrétneho praktického problému a špecialista na metódy matematického výskumu stojí pred problémom: ktorá z nich by mala byť ponúknutá aplikovanému vedcovi na analýzu konkrétnych údajov?

Ako príklad uveďme problém testovania homogenity dvoch nezávislých vzoriek. Ako viete, na jeho vyriešenie môžete ponúknuť veľa kritérií: Študent, Cramer-Welch, Lord, chi-kvadrát, Wilcoxon (Mann-Whitney), Van der Waerden, Savage, N.V. Smirnov, omega-kvadrátový typ (Lehman -Rozenblatt), G.V. Martynov atď. Ktorý si vybrať?

Myšlienka „hlasovania“ prirodzene prichádza na myseľ: skontrolovať podľa mnohých kritérií a potom urobiť rozhodnutie „väčšinovým hlasovaním“. Z hľadiska štatistickej teórie takýto postup jednoducho vedie ku konštrukcii ďalšieho kritéria, ktoré nie je a priori o nič lepšie ako predchádzajúce, ale je náročnejšie na štúdium. Na druhej strane, ak sa riešenia zhodujú podľa všetkých uvažovaných štatistických kritérií založených na rôznych princípoch, potom to v súlade s koncepciou stability zvyšuje dôveru vo výsledné všeobecné riešenie.

Najmä medzi matematikmi je rozšírený nepravdivý a škodlivý názor o potrebe hľadania optimálnych metód, riešení atď. Faktom je, že optimálnosť zvyčajne zmizne, keď sa odchýlite od počiatočných predpokladov. Aritmetický priemer ako odhad matematického očakávania je teda optimálny len vtedy, keď je počiatočné rozdelenie normálne, pričom je to vždy platný odhad, pokiaľ matematické očakávanie existuje. Na druhej strane, pre akúkoľvek ľubovoľne zvolenú metódu odhadu alebo testovania hypotéz je zvyčajne možné sformulovať pojem optimality tak, aby sa daná metóda stala optimálnou – z tohto špeciálne zvoleného hľadiska. Vezmime si napríklad výberový medián ako odhad matematického očakávania. Je, samozrejme, optimálny, aj keď v inom zmysle ako aritmetický priemer (optimálny pre normálne rozdelenie). Totiž pre Laplaceovu distribúciu je výberový medián maximálnym odhadom pravdepodobnosti, a teda optimálnym (v zmysle špecifikovanom v monografii).

Kritériá homogenity boli analyzované v monografii. Existuje niekoľko prirodzených prístupov k porovnávaniu kritérií – založených na asymptotickej relatívnej účinnosti podľa Bahadur, Hodges-Lehman, Pitman. A ukázalo sa, že každé kritérium je optimálne vzhľadom na zodpovedajúcu alternatívu alebo vhodné rozdelenie na množine alternatív. V tomto prípade matematické výpočty zvyčajne využívajú alternatívu posunu, ktorá je v praxi analýzy reálnych štatistických údajov pomerne zriedkavá (v súvislosti s Wilcoxonovým testom sme túto alternatívu diskutovali a kritizovali v r). Výsledok je smutný – brilantná matematická technika predvedená v nám neumožňuje dať odporúčania na výber kritéria na testovanie homogenity pri analýze reálnych údajov. Inými slovami, z pohľadu práce aplikačného pracovníka, t.j. analýzou konkrétnych údajov je monografia zbytočná. Brilantné ovládanie matematiky a obrovská pracovitosť, ktorú predviedol autor tejto monografie, žiaľ, do praxe nič nepriniesli.

Samozrejme, každý prakticky pracujúci štatistik tak či onak rieši problém výberu štatistického kritéria sám. Na základe viacerých metodologických úvah sme zvolili kritérium omega-štvorca (Lehman-Rosenblatt), ktoré je v súlade s akoukoľvek alternatívou. Pretrváva však pocit nespokojnosti z dôvodu nedostatočného odôvodnenia tejto voľby.

Načítava...