If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 11

Урок 1: Приблизително намиране на съотношенията (частите, на които се дели) в генералната съвкупност

Доверителен интервал пример

Сал изчислява 99 % доверителен интервал за дела на учителите, които възприемат компютрите като основен инструмент в тяхната работа. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В един административен район се предоставя финансиране на учители за инсталиране на мрежа от четири компютъра в техните класни стаи. От 6250 учители в областта са избрани произволно 250, като на всеки учител е зададен въпросът дали счита компютъра за съществено важен елемент на преподаването. Сред избраните, 142 учители мислели, че компютрите са важен образователен елемент. След това от нас искат да определим 99% доверителен интервал за деля на учителите, смятащи компютрите за съществен елемент в преподаването. Нека само да помислим за цялата генерална съвкупност. Не сме могли да анкетираме всички учители, цялата генерална съвкупност, но някои от тях отговарят – ще ги определим като 1 – че според тях това е добро средство. Изказали са мнение, че компютрите са добро средство. И ще означим с 0 случаят, когато един учител казва, че не е добро. Известен дял от всички учители мислят, че това е добро средство. Този дял е р. Останалите от тях мислят, че е лошо средство за учене, 1 минус р. Тук имаме разпределение на Бернули, а знаем, че средната стойност на това разпределение, или очакваната стойност на това разпределение ще е всъщност р. И фактически това ще бъде стойност, която не е 0, нито е 1, т.е. не е реална стойност, която отразява отговора на един учител, който е анкетиран. Те не могат да кажат, че нещо е средно добро, или че не е добро. Действително очакваната стойност е нещо междинно. Това е р. Ние правим извадка от 250 учители, и получаваме, че според 142 от тях компютрите са важен инструмент за преподаване. И в нашето проучване имаме 250 участника, като получихме, че 142 са изказали добро мнение, и ще кажем, че това е 1. Получихме 142 единици, или 142 пъти имаме 1 в разпределението. А какво става в останалите случаи? Други 108 са дали мнение, че компютрите не са хубаво нещо. Така, 108 души казват, че не са добри, тях можем да представим като 0. 108 плюс 142 е 250. И каква е извадковата средна стойност тук? Имаме 1 път по 142, плюс 0 пъти по 108, разделено на целия ни брой елементи в извадката, делено на 250. Това е равно на 142 върху 250. Това може да се разглежда като дял в извадката на учителите, които считат компютрите за добро средство за обучение. Нека сега взема калкулатора, за да пресметна това. Имаме 142, делено на 250, това е равно на 0,568. Така че делът в извадката е 0,568. Или 56,8%, може и по двата начина. Така, 0,568. Сега нека намерим и дисперсията на извадката, защото можем по-късно да я използваме при определяне на доверителния интервал. Дисперсията на извадката тук – пиша дисперсия на извадката – ще вземем претеглената сума на квадратите на отклоненията от средната стойност и ще разделим резултата на минус 1. И така ще намерим най-добрата оценка на действителната дисперсия. Така имаме 1 по... не, всъщност тук е обратно – имаме 142 елемента, които са отдалечени на 1 минус 0,568 от средната стойност на извадката, или сме на такова разстояние от средната стойност на извадката 142 пъти, и ще повдигнем на квадрат тези разстояния. Плюс другите 108 пъти, когато имаме 0, така сме на 0 минус 0,568 разстояние от извадковата средна стойност. След това ще разделим това на общия брой елементи минус 1. Това минус 1 така нагласява нещата, за да не подценим нищо. Така, 250 минус 1. Пак ще използвам нашия калкулатор. Така, имаме 100... ограждам всичко с кръгли скоби – имам 142 по 1 минус 0,568, на квадрат, плюс 108 по 0, минус – очевидно части от задачата могат да се сметнат наум, но аз ще напиша всичко подробно, минус 0,568 на квадрат, и всичко това делено на 250 минус 1, което е 249. Така дисперсията на извадката е... ще кажа 0,246. Това е равно на... т.е. дисперсията на извадката е... ще я напиша тук – дисперсията на извадката е равна на 0,246. Ако намерим квадратния корен от това, тогава действителното стандартно отклонение на извадката ще бъде... коренувам полученото тук, и получаваме 0,496 е равно на 0. Ще закръгля това на 0,50. И това е стандартното отклонение на извадката. Сега, този интервал, да го разгледаме така: вземаме извадка от дадено извадково разпределение на извадкова средна стойност. Така че това изглежда като това тук, а това – като показаното там. И имаме някаква средна стойност. Средната стойност на извадковото разпределение всъщност е равна на тази средна стойност тук – ще бъде същата средна стойност, която е равна на нашия дял от генералната съвкупност. Виждали сме това безброй пъти. И стандартното отклонение на извадковото разпределение... можем да разглеждаме това като едно стандартно отклонение. И стандартното отклонение на извадковото разпределение, нещо, което сме виждали много пъти, е равно на стандартното отклонение на... ще използвам друг цвят тук – е равно на стандартното отклонение на изходната генерална съвкупност, разделено на корен квадратен от броя на елементите в извадката. Имаме делено на 250. Сега това тук не го знаем. Не знаем действителното стандартно отклонение на генералната съвкупност. Но нашата най-добра оценка от това – и това е причината да го наричаме доверителен интервал – уверени сме, че истинската средна стойност или реалният дял от генералната съвкупност ще е в този интервал. Уверени сме, но не сме 100% сигурни, защото ще оценим това тук, и ако оценяваме това, реално оценяваме това там. И ако това може да се оцени, ще се оцени чрез стандартното отклонение на извадката. И тогава можем да кажем, че това ще е приблизително, или освен ако не получим една напълно изместена извадка, тогава всъщност може дори да не е приблизително, ако имахме наистина странна извадка. Но може би трябва да напишем "увереност във" – уверени сме, че стандартното отклонение на нашето извадково разпределение ще бъде приблизително... вместо това можем да използваме стандартното отклонение на нашата извадка, извадковото стандартно отклонение. Така, 0,50 делено на корен квадратен от 250. Колко ще получим? Това ще е... имаме тази стойност тук, и всъщност не е нужно да я закръглявам, делено на корен квадратен от 250. Получаваме 0,031. Това тук е равно на 0,031. Това е едно стандартно отклонение. Търсим 99% доверителен интервал. Начинът, по който разглеждам това, е... ако избера произволно един елемент от извадковото разпределение, каква вероятност от 99% имаме, или колко... нека помислим по този начин. На колко стандартни отклонения от средната стойност трябва да бъдем, за да можем да приемем, че имаме 99% увереност в това, че всеки елемент от извадковото разпределение ще е в този интервал? Друг начин да помислим за това, е на колко стандартни отклонения трябва да сме отдалечени от средната стойност, ще бъдем на разстояние определен брой стандартни отклонения от средната стойност, така че всяка извадка, всяка средна стойност, която вземаме от тук, всеки елемент от това разпределение да има 99% възможност да бъде плюс или минус толкова стандартни отклонения. Това може да е от тук до тук. И това е, което искаме. Искаме 99% вероятност, че ако изберем един елемент от извадковото разпределение на извадковата средна стойност, той ще е в рамките на толкова стандартни отклонения от действителната средна стойност. И за да разберем резултата, нека погледнем нашата Z-таблица. Искаме 99% доверителен интервал. И друг начин, по който да разгледаме това, ако искаме 99% увереност, ако погледнем само горната половина тук, тази оранжева област трябва да е 0,475, защото ако това е 0,475, тогава тази другата част ще бъде 0,475, и ще стигнем до... о, извинявам се, искаме да получим до 99%, и затова няма да е 0,475. Ще трябва да отидем на 0,495 ако искаме 99% увереност. Така че тази област трябва да е 0,495 тук, защото ако това е толкова, и това тук ще е толкова. И сборът им ще е 99% от цялата площ. Ако това е 0,495, тази стойност от z-таблицата тук ще трябва да е 0,5, защото цялата тази площ, ако включим всичко това, ще е 0,5. И ще имаме 0,5 плюс 0,495. Което дава 0,995. Правилно ли е? 0,995. Поглеждаме нашата Z-таблица. Къде имаме 0,995 в нашата z-таблица? 0,995 е доста близо, с малка грешка, ще се намира ето тук – това е 0,9951. Друг начин на представяне е, че 99... тази стойност тук ни дава цялата площ до тук, от нашата средна стойност. И ако погледнем цялото разпределение по този начин, това тук е средната стойност. Това ни показва 2,5 стандартни отклонения над средната стойност, така че са налице 2,5 стандартни отклонения над средната стойност. А това е 2,5 пъти стандартното отклонение на извадковото разпределение. Ако погледнем цялата тази площ, цялата тази площ тук, ако погледнем Z-таблицата, ще видим, че това е 0,9951, което ни казва че тази област тук само ще е 0,4951, което ни казва, че тази област плюс симетричната област на толкова стандартни отклонения под средната стойност, ако ги съберем, 0,4951 по 2 ни дава 99,2. И цялата тази площ тук е 99,992. А ако погледнем областта 2,5 стандартни отклонения над и под средната стойност... О, трябва да внимавам. Това не е само 2,5, трябва да добавим още една значеща цифра. Това е 2,5, а следващата значеща цифра е дадена в тази колона. Така че трябва да погледнем ето тук горе към втората и последната колона, и трябва да добавим една осмица тук. Това са 2,58 стандартни отклонения. Имаме 2,5 тук, и после имаме следващата цифра 8 от колоната. 2,58 стандартни отклонения над и под стандартното отклонение включва малко над 99% от общата вероятност. Така има малко над 99% вероятност всяка извадкова средна стойност, която избера от извадковото разпределение на извадковата средна стойност да попадне в тази част на стандартното отклонение. И нека го представим така. Има 99... всъщност това какво е – 99,2% вероятност, нали така? Ако умножим тук по 2, получаваме 0,99... всъщност получаваме 0,9902. Така че ще кажем, че имаме около 99% вероятност за всяка извадка... случайна извадкова средна стойност да е в рамките на 2,58 стандартни отклонения от извадковата средна стойност, средната стойност на извадковото разпределение на тази средна стойност, което е точно равно на действителната средна стойност на генералната съвкупност, която пък е равна на дела от генералната съвкупност, който е р. А ние знаем каква е тази стойност тук. Поне имаме прилична оценка за тази стойност. Не знаем точно колко е това, но нашата най-добра оценка за тази стойност е това тук. И можем да преработим това, така че можем да кажем, че сме уверени, защото действително използваме оценка, за да получим тази стойност тук. Уверени сме, че има 99% вероятност дадена произволна х, произволна извадкова средна стойност, да е в рамките на... нека намерим тази стойност тук с калкулатора. Равно е на 2,58 по нашата най-добра оценка за стандартното отклонение на извадковото разпределение, значи по 0,031, е равно на 0,0... да закръглим това, защото е много близо до 0,08 – това е в рамките на 0,08 от дела в генералната съвкупност. Или можем да кажем, че сме уверени в делът от генералната съвкупност е в рамките на 0,08 от нашата извадкова средна стойност. Това е абсолютно същото твърдение. И ако търсим нашия доверителен интервал, действителното число, което получихме за него там, нашата действителна извадкова средна стойност, която получихме, беше 0,568. И можем да заместим това, всъщност нека го направя. Това тук го изтривам. Изчиствам. Мога да заместя това, защото всъщност действително направихме извадка. И мога да заместя това с 0,568. Така че можем да сме уверени, че има 99% вероятност 0,568 да е в рамките на 0,08 от дела в генералната съвкупност, което е точно равно на средната стойност на генералната съвкупност, точно равна на средната стойност за извадковото разпределение на извадковата средна стойност, и т.н. и т.н. За да стане по-ясно, можем да разменим тези двете. Значението няма да се промени. Ако това е в рамките на 0,08 от това, тогава това е в рамките на 0,08 от това. Нека разменя това. Можем да сметнем, че р е в рамките на... нека разменя тези – в рамките на 0,568. Така формулирано звучи повече като доверителен интервал. Уверени сме, че има 99% вероятност р да е в рамките на 0,08 от извадковата средна стойност 0,568. Така че какъв ще е нашият доверителен интервал? Той ще е 0,568 плюс или минус 0,08. И колко дава това? Ако добавим 0,08 към това тук, в горната част ще имаме 0,648. А в долния край на интервала... това е горната част, а това е долната. Ако извадим 8 от това, получаваме 0,488. Така сме 99% уверени, че действителният дял от генералната съвкупност е между тези две числа. И друг начин, по който действителният процент учители, които приемат компютрите като добра идея, е между... 99% сме уверени... уверени сме, че има 99% вероятност действителният процент учители, които обичат компютрите, да е между 48,8% и 64,8%. Така отговорихме на първата част от въпроса. Втората част: как може да се промени допитването, така че да се стесни доверителният интервал, но със запазване на 99% доверителен интервал? Могат да се вземат повече извадки. Ако вземем повече извадки, отколкото са в нашата оценка на стандартното отклонение на това разпределение, то ще намалее, защото този знаменател ще е по-голям. Ако знаменателят е по-голям, тогава цялото това нещо ще бъде по-малко. Така че ако стандартните отклонения тук намалеят, тогава, когато броим стандартните отклонения, когато събираме или изваждаме в интервала, тази стойност ще намалее и ще стесни нашия интервал. Затова увеличаваме извадката.