If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 10

Урок 2: Извадково разпределение на средна стойност на извадка

Извадково разпределение на средна стойност на извадка (част 2)

Още върху централната гранична теорема и извадковото разпределение на средната стойност на извадката. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Надявам се, че досега имаме значителни работни познания за емпиричното разпределение на средната стойност на извадката. В това видео искам да проуча още малко как това разпределение се променя, докато променяме размера на извадката, n. Записвам n тук долу. Размерът на извадката n. Да преговорим малко – преди видяхме, че можем просто да започнем с което и да е странно разпределение. Може би то изглежда като това. Ще направя дискретно разпределение. Всъщност, за да моделираш каквото и да е, в някакъв момент ще трябва да го направиш дискретно. Може да е много назъбено дискретно разпределение, но нека да кажем, че е нещо странно, което изглежда като това. Това очевидно не е нормално разпределение. Но в първото видео видяхме, че ако вземеш, да кажем, извадка с размер четири... Взимаш четири числа от това разпределение, четири случайни числа, при които, да кажем, това е вероятността от 1, 2, 3, 4, 5, 6, 7, 8, 9. Ако вземеш четири числа едновременно и вземеш средно аритметичното им... нека направя това тук. Ако вземеш четири числа, да кажем, че използваме това разпределение, за да генерираме четири случайни числа... Много вероятно е да вземем 9. Определено няма да вземем седмици или осмици. Определено няма да вземем четири. Може да вземем едно или две. 3 също е много вероятно. 5 е много вероятно. Използваме тази функция, за да генерираме случайни числа. Взимаме извадки от по четири и после взимаме средно аритметичното им. Да кажем, че първото ни средно аритметично е, не знам, да кажем, че е 9, 5, още едно 9, после 1... Колко е това? Това е 14 плюс 10, 24 делено на4. Средно аритметичното за този първи опит за тази първа извадка от четири ще е 6. Те дават сбор от 24 делено на 4. Ще го поставим тук. В този случай средно аритметичното ни беше 6. Ето така. Ще продължим да правим това. В миналото сме виждали, че, ако просто продължиш да правиш същото, това ще започне да изглежда като нормално разпределение. Може би отново ще го направим, средно аритметичното отново е 6. Повтаряме, сега средно аритметичното е 5. Повтаряме, средно аритметичното е 7. Повтаряме, средно аритметичното е 6. После, когато направиш това много пъти, разпределението ти може да изглежда доста подобно на нормално разпределение. Тези квадратчета са много малки. Ще направим няколко такива опита. В един момент това може да изглежда доста подобно на нормално разпределение. Очевидно в него има няколко средно аритметични стойности. Няма да е перфектно нормално разпределение, понеже никога не можеш да получиш нещо по-малко от 0 или нещо по-малко от едно като средно аритметично. Не можеш да получиш средно аритметично нула. Не можеш да получиш нещо по-голямо от 9. Това няма да има безкрайно дълги опашки, но, поне за средната му част, може да е доста добро приближаване до нормално разпределение. В това видео искам да помислим какво се случва, когато променим n. В този случай n беше 4. n е размерът на извадката ни. Всеки път, когато направим един опит, взимаме четири числа, намираме тяхното средно аритметично и го нанасяме. Можеше n да е равно на 10. Можех да взема 10 извадки от тази генерална съвкупност, можеш да кажеш, или от тази случайна променлива, да взема средно аритметичното им и да ги поставя тук. В последното видео проведохме симулацията. Ще се върна към тази симулация след малко. Видяхме две неща. Този път ще го направя в малко повече дълбочина. Когато n е доста малко, то не доближава нормално разпределение толкова добре. Когато n е малко... нека вземем екстремния случай. Какво се случва, когато n е равно на 1? Това буквално означава, че взимам един отделен случай от тази случайна променлива и взимам средно аритметичното. То просто ще е същото това нещо. Ако направя няколко такива опита и ги нанеса, как ще изглежда това? Определено няма да изглежда като нормално разпределение. Ще имаме две единици. Ще имаме две двойки. Ще имаме повече тройки. Няма да имаме четворки. Ще имаме няколко петици. Ще имаме няколко шестици. Ще имаме няколко деветки. Тук емпиричното разпределение на средната стойност на извадката за n от едно ще изглежда... не ме интересува колко опити правиш, то няма да изглежда като нормално разпределение. Централната гранична теорема, въпреки че – казах, че ако направиш няколко опита, ще изглежда като нормално разпределение, но определено няма да работи за n = 1. Докато n става по-голямо, тя започва да има смисъл. Да видим, ако имаме n = 2, правя всичко това наум. Не знам как биха изглеждали реалните разпределения. Но все още ще е трудно това да стане напълно нормално разпределение. Но после можеш да вземеш повече отделни случаи, да вземеш повече – можеш да вземеш неща от всички от тези горе. Но навсякъде, където взимаш средно аритметично, ще получиш две числа. Например няма да получиш 7 и 1/2 в емпиричното си разпределение на средната стойност на извадката за n равно на 2, понеже е невъзможно да вземеш 7 и е невъзможно да вземеш 8. Никога няма да получиш 7 и 1/2 като – може би, когато го поставиш, може би ще изглежда като това. Но ще има празно пространство на 7 и 1/2, понеже това е невъзможно. Може би ще изглежда като това. Все още няма да е нормално разпределение, когато n = 2. Има две интересни неща тук. Едно нещо – не споменах това първия път, просто понеже исках да видиш интуитивната логика на това какво представлява централна гранична теорема. Централната гранична теорема казва, че когато n доближава безкрайност, тогава получаваш реалното нормално разпределение. Но в ежедневието няма да стигнеш много далеч с n равно на две. Ако стигнеш до n равно на 10 или n равно на 15, тогава доста се доближаваш до нормално разпределение. Това доста бързо се доближава до нормално разпределение. Другото нещо е, че очевидно искаш много, много опити. Това е размерът на извадката ти. Това е размерът на всяка от групите ти. В първото видео, което направих за това, взех извадка с размер 4. В симулацията, която направих в последното видео, взехме извадки с размер от 4 и от 10. Това е извадка с размер 1. Това е размерът на нашата извадка. Докато това доближава безкрайност, реалното ти емпирично разпределение на средната стойност на извадката ще доближи нормално разпределение. За да видиш това нормално разпределение и да си го докажеш, трябва да направиш това много, много... помни, че се получава нормално разпределение... това е от генералната съвкупност или това е случайната променлива. Това ти дава всички вероятности. В реалния живот рядко знаем всички възможности. Всъщност, в реалния свят, рядко знаем,че има функция за генериране на теоретична вероятност. Единствено, ако я пишем, ако пишем компютърна програма. Обикновено взимаме извадки и опитваме да изчислим нещата. Обикновено има някаква случайна променлива. После, може би, правим няколко извадки. Взимаме средната им стойност и ги нанасяме. После ще получим някакъв вид нормално разпределение. Да кажем, че правим извадки с размер 100 и взимаме средно аритметичното. Ще получим някакво нормално разпределение. На теория, докато взимаме тези средно аритметични стойности стотици или хиляди пъти, наборът ни данни повече ще се доближи до това теоретично разпределение на средната стойност на извадките. То е реално разпределение. То е реално разпределение с реална средна стойност. Има теоретична средна стойност. Средната стойност на разпределението на средните стойности на извадките...ще запишем това така. Забележи, не го записах просто като "х" – този запис всъщност показва, че това е средна стойност на реална генерална съвкупност. Това е средна стойност на реална случайна променлива. Ако погледнеш всяка възможност от всички извадки, които можеш да вземеш от оригиналното си разпределение, от някое друго случайно оригинално разпределение, и вземеш всички възможности на, да кажем, размера на извадката... Да кажем, че си имаме работа с размер на извадката 10. Ако вземеш всички комбинации от 10 извадки от някое оригинално разпределение и вземеш средно аритметичното им, това ще опише тази функция. Разбира се, в реалността, ако не знаеш оригиналното разпределение, не можеш да вземеш безброй извадки от него. Тоест, няма да знаеш всяка комбинация. Но, ако направиш това 1 000 пъти, ако направиш този опит 1 000 пъти – тоест, 1 000 пъти вземеш 10 извадки от някое разпределение и вземеш 1 000 средно аритметични и ги поставиш – доста ще се доближиш. Следващото нещо, което искам да засегна, е какво е случва, докато n... знаем, че докато n доближава безкрайност, това става по-нормално разпределение. Но, както вече казах, когато n е равно на 10 е доста добре. Когато n е равно на 20 е още по-добре. Но видяхме нещо в последното видео, което, поне за мен, е доста интересно. Да кажем, че започнем с това странно разпределение тук. Всъщност няма значение с какво разпределение започваме. В симулацията видяхме, че когато n е равно на... да кажем, че n е равно на 5. Графиката ни, след като вземем извадки от пет, вземем средно аритметичното им и направим това 10 000 пъти, графиката ни изглежда като това. Един вид широко е – като това. После, когато направихме това с n = 10, графиката ни изглеждаше малко... всъщност беше малко по-притиснато, като това, малко повече. Не само беше по-нормално – това ни казва централната гранична теорема, понеже взимаме извадки с по-големи размери – но имаше по-малко стандартно отклонение или по-малка дисперсия. Средната стойност ще е същата във всички случаи. Но, когато извадката ни беше с по-голям размер, стандартното ни отклонение стана по-малко. Всъщност, стандартното ни отклонение стана по-малко, отколкото разпределението на оригиналната ни генерална съвкупност или функцията на оригиналната вероятностна честота. Нека ти покажа това с една симулация. Нека изчистя всичко. Тази симулация е толкова добра, колкото всяка друга. Първото нещо, което искам да ти покажа – или това разпределение е толкова добро, колкото всяко друго. Първото нещо, което искам да ти покажа, е че n от 2 всъщност не е толкова добре. Нека сравним n = 2 с, да кажем, n = 16. Когато сравняваш n = 2 с n = 16 – нека го направим веднъж. Имаме един, два опита,, намираме средната стойност . После правим 16 опита взимаме средната им стойност . После то ще ги начертае тук и тук, долу. Нека направим това 10 000 пъти. Забележи, когато вземеш n = 2, въпреки че го направихме 10 000 пъти, това не доближава нормално разпределение. И можеш да видиш това в стойностите на асиметрията и ексцеса. То има дясно изтеглено рамо (положителна асиметрия), което означава, че има по-дълга опашка надясно, отколкото наляво. После, то има отрицателен ексцес, което означава, че има по-къси опашки и по-малки върхове, отколкото едно стандартно нормално разпределение. Сега, когато n е равно на 16 и направиш същото – тоест, всеки път взимаме 16 извадки от тази функция на разпределението тук и взимаме средно аритметичното им – и всяка от тези точки представлява едно средно аритметично. Направихме това 10 001 пъти. Сега, забележи, средната стойност е същата и на двете места. Но тук, изведнъж, ексцесът ни е много по-малък и изкривяването ни е много по-малко. В тази ситуация сме по-нормални. Но още по-интересно нещо е, че стандартното ни отклонение е по-малко. Това е по-стеснено, отколкото това. Определено е по-стесненено, отколкото нашето първоначално разпределение. Нека отново изчистя всичко. Харесва ми това разпределение, понеже е много не-нормално разпределение. Изглежда като някакъв вид бимодално разпределение. Нека вземем сценарий, при който имаме n равно – нека вземем две добри n. Нека вземем n = 16. Това е добро n. Нека вземем и n о= 25. Нека ги сравним. Ще направя един анимиран опит, просто защото винаги е добре да се види. Първо, това ще направи 16 от тези опити и ще изчисли средно аритметичното. Ето. После това ще направи 25 от тези опити и ще изчисли средно аритметичното. И готово. Нека направим това, което сега направих анимирано, нека го направим 10 000 пъти. Чудесата на компютрите. Забележи нещо. Това е 10 000 пъти. И двете са доста добри приближения до нормални разпределения. При n = 25, това е по-нормално. Има по-малка асиметрия, малко по-малко изкривяване, отколкото при n = 16. Има малко по-малък ексцес, което означава, че е по-близо до това да бъде нормално разпределение, отколкото при n= 16. Но още по-интересно е, че е по-стеснено. Има по-малко стандартно отклонение. Стандартното отклонение тук е 2,1 и стандартното отклонение тук е 2,64. Това е друго – имам предвид, засегнах това в последното видео и донякъде е логично. За всяка извадка, която направиш за своето средно аритметично, колкото повече неща поставиш в тази извадка, толкова по-малко е стандартното отклонение. Помисли за екстремния случай. Ако, вместо всеки път да взимаш 16 извадки от нашето разпределение или вместо да взимаш 25, всеки път вземеш милион извадки от това разпределение, ако всеки път взимаш милион извадки от това разпределение, средната стойност на извадката винаги ще е много, много близо до моята средна стойност. Ако взема милион извадки от всичко, ако опитам да изчисля средната стойност, като взема милион извадки, ще получа доста добро изчисление на тази средна стойност. Вероятността тук да има милион числа е много малка. Тоест, ако n е милион, разбира се, всички средни стойности на извадката ми, когато намеря средно аритметичното, ще са много тясно фокусирани около самата средна стойност. Надявам се, че това ти се е сторило логично. Ако не е така, просто помисли върху него. Дори можеш да използваш това и да експериментираш с него, просто за да можеш да повярваш, че това наистина е така. Оказва се, че има много чиста формула, която е свързана със стандартното отклонение на функцията на оригиналното вероятностно разпределение, и стандартното отклонение на емпиричното разпределение на средната стойност на извадката. Както можеш да си представиш, това е функция на размера на извадката, на това колко извадки взимаш във всяка група, преди да намериш средно аритметичното им. Ще стигна до това в следващото видео.