If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Видове статистически проучвания

Видове статистически проучвания.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Ще говорим за основните видове статистически проучвания. Съществува проучване с извадка и вече сме говорили за това в няколко видеа, но отново ще го разгледаме тук. Съществува проучване с наблюдение, а също и експеримент. Нека прегледаме всяко от тези и винаги спирай видеото и проверявай дали можеш да се досетиш какво вероятно означават тези думи, а и е възможно вече да знаеш. Вече сме разглеждали проучване с извадка. Това е, когато опитваш да изчислиш стойността на един параметър за генерална съвкупност. Какъв пример можем да дадем за това? Да кажем, че взимаме генералната съвкупност на хората в един град, като това може да са стотици хиляди души, а параметърът, който ни интересува, е средно колко време прекарват на компютъра. Параметърът ще е за цялата генерална съвкупност. Ако беше възможно, щеше да говориш с всеки човек, може би има милион души в града. Щеше да говориш с всички милион души и да ги попиташ колко време прекарват на компютъра, щеше да вземеш средната стойност и това щеше да е параметърът. Параметърът за генералната съвкупност ще е средното време на компютър на ден, средното време на ден, прекарано на компютъра. Разбираш, че не е практично да говориш с всеки, така че няма да можеш да намериш точния параметър за генералната съвкупност, средното дневно прекарано време на компютъра, затова правиш проучване с извадка. Правиш случайна извадка и доста трябва да помислиш дали извадката ти е наистина случайна. Правиш случайна извадка и има различни техники за създаване на случайна извадка. Правиш случайна извадка на хората от твоята генерална съвкупност и после взимаш средното дневно прекарано време на компютър за твоята извадка и това ще е оценка за параметъра на генералната съвкупност. Това е класическо проучване с извадка. При проучване с наблюдение не се опитваш да изчислиш параметър. Опитваш да разбереш дали два параметъра в една генерална съвкупност са свързани един с друг. Да кажем, че имаш генерална съвкупност от, да кажем, 1000 души. Имаш 1000 души и ти е любопитно дали средното дневно прекарано време на компютър е свързано с кръвното налягане на хората. Средното време прекарано на компютър – не трябва да го записвам така. Вместо средно време прекарано на компютър, трябва да е просто време прекарано на компютър. Време прекарано на компютър спрямо кръвно налягане. Правиш проучване сред 1000 души и ги питаш колко време прекарват на компютър и какво е кръвното им налягане. Или, може би, го измерваш по някакъв начин и поставяш данните, поглеждаш ги и гледаш дали тези две променливи са свързани. Какво означава това? Нека го нарисувам. Нека на тази ос е времето, прекарано на компютър, а на тази ос е кръвното налягане. Да кажем, че има един човек, който не прекарва много време на компютър и има сравнително ниско кръвно налягане. Има друг човек, който прекарва много време и има високо кръвно налягане. Може да има някой, който не прекарва много време на компютър, но има сравнително високо кръвно налягане, но продължаваш да правиш това и поставяш всички тези точки информация за хилядата души и аз няма да нарисувам 1000 точки, но виждаш нещо такова, и виждаш, че определено има някои големи разлики в стойностите, но изглежда тези две променливи са свързани помежду си. Като цяло, изглежда колкото повече време се прекарва на компютър, толкова по-високо е кръвното налягане или колкото по-високо е кръвното налягане, толкова повече време се прекарва на компютър. Можеш да направиш заключение относно корелацията на тези две променливи – те са с положителна корелация. Логично заключение ще е, ако направиш проучването правилно, че повече време на компютър е свързано с по-високо кръвно налягане или че по-високото кръвно налягане е свързано с повече време на компютър. Когато правиш тези проучвания с наблюдение или когато интерпретираш тези проучвания с наблюдение, когато разчиташ нечие друго проучване, много е важно да не си помислиш, че времето прекарано на компютър води до високо кръвно налягане, понеже това не показва причинно-следствена връзка, нито пък да си кажеш, че някак кръвното налягане кара повече хора да прекарат известно време пред компютъра. Това изглежда малко глупаво, но всъщност тези неща са еднакви, понеже всичко, което казваш, е, че има корелация. Тези две променливи са свързани. Не можеш да направиш заключение за причинно-следствена връзка, че времето прекарано на компютър причинява определено кръвно налягане или че високото кръвно налягане води до повече време, прекарано на компютър. Защо не можеш да направиш това? Тук има неща, наречени смущаващи променливи (фактори), понякога наречени и скрити променливи, при което...да кажем, че това е времето прекарано на компютър, а това е кръвното налягане. Изглежда като сграда. Изглежда тези две неща се развиват заедно. Видяхме това тук при нашите данни, но може да има основна променлива, която води и до двете неща, смущаваща променлива, и това може просто да е количеството физическа активност на даден човек. Може да има липса на активност, което води и до двете неща. Хората, които са по-малко активни, прекарват повече време пред компютъра и хората, които са по-малко активни, имат по-високо кръвно налягане, и ако можеш да контролираш това, ако вземеш група хора, които имат подобна липса на активност или подобно ниво на активност, може да видиш, че времето, прекарано на компютър не е свързано с кръвното налягане, че тези двете неща произлизат от едно и също нещо и това, което всъщност виждаш тук, е че ако хората не са активни, това води до тези две неща. Отново, когато правиш такова проучване с наблюдение, и ако го направиш добре, можеш да намериш корелации и това може да ти даде добра хипотези за причинно-следствена връзка, но то не показва причинно-следствена връзка, понеже може да съществуват такива смущаващи фактори. Сега за експериментите. Експериментите са основата на научния метод. При експериментите се опитваме да намерим причинно-следствена връзка, така че ако искаш да направиш експеримент, ще вземеш, и вероятно няма да можеш да го направиш с 1000 души... Експериментите, в определен смисъл, са най-трудното нещо от всички проучвания. Може би взимаш 100 души и, за да избегнеш наличието на тези смущаващи променливи, които въвеждат грешка в експеримента ти, случайно разделяш тези сто души в две групи. Много е важно те да са случайно разпределени. Може да не знаеш всички смущаващи фактори тук, но благодарение на това ще е вероятно във всяка група да има същия брой хора с липса на активност или средно ниво на активност. Когато ги разпределиш случайно, това ти дава по-голям шанс да няма значително по-различно ниво на активност в едната група, за разлика от другата. Когато направиш това, имаш контролна група и имаш експериментална група. Отново, разпределяш ги случайно. Контролна група и експериментална група. Можеш да кажеш всички от контролната група да прекарват определено количество време... да прекарват максимум 30 минути на ден пред компютъра или може би ще им кажеш да прекарват точно 30 минути на компютър, като това може би е малко нереалистично. После, в експерименталната група, трябва да кажеш да прекарват точно два часа пред компютър, като случайно избирам тези числа. Ще бъде хубаво да се види какво е кръвното налягане на всеки човек преди експеримента. Ще видиш дали средните стойности са подобни при започване на експеримента и после хората ще прекарат някакво количество време пред компютър, и ще им измериш кръвното налягане и ще видиш дали едната група определено има по-високо кръвно налягане. Тази група има по-високо кръвно налягане, тоест, тук кръвното налягане е по-високо, и, отново, част от това може просто да се е случило случайно, може да е поради хората, които поставяш тук и така нататък. Но, в зависимост дали това е достатъчно голям експеримент и го провеждаш добре, той казва, че изглежда има причинно-следствена връзка тук, че когато накараш тези хора да прекарат повече време пред компютъра, това повишава кръвното им налягане. Още веднъж, при проучване с извадка опитваш да изчислиш параметър за една генерална съвкупност. При проучване с наблюдение виждаш дали има корелация между две неща и трябва да внимаваш да не кажеш, че едното предизвиква другото, понеже може да имаш смущаващи променливи. При експеримент се опитваш да установиш или да покажеш причинно-следствена връзка и правиш това като вземеш една група и случайно я разделиш на контролна и експериментална. Тя трябва да бъде равномерно разпределена. Не винаги, всеки път има някаква вероятност да не стане така, но разпределяш смущаващите, скритите променливи и после във всяка група променяш стойността на една от променливите, които изследваш и виждаш дали тя променя другата променлива. В следващите две видеа ще направим някои примери за идентифициране на тези видове проучвания и ще помислим какво можем да заключим от тях, или тези видове статистически проучвания и ще видим какво можем да заключим от тях.