T-test

Ce este un test T?

Un test t este un tip de statistică inferențială folosită pentru a determina dacă există o diferență semnificativă între mijloacele a două grupuri, care pot fi legate în anumite caracteristici. Este utilizat mai ales atunci când seturile de date, precum setul de date înregistrat ca rezultat al obținerii unei monede de 100 de ori, ar urma unei distribuții normale și poate avea variații necunoscute. Un test t este utilizat ca instrument de testare a ipotezelor, care permite testarea unei ipoteze aplicabile unei populații.

Un test t analizează statistica t, valorile distribuției t și gradele de libertate pentru a determina probabilitatea diferenței între două seturi de date. Pentru a efectua un test cu trei sau mai multe variabile, trebuie să folosiți o analiză a variației.

01:38

T-test

Explicarea testului T

În esență, un test t ne permite să comparăm valorile medii ale celor două seturi de date și să determinăm dacă provin din aceeași populație. În exemplele de mai sus, dacă ar fi să luăm un eșantion de studenți din clasa A și un alt eșantion de elevi din clasa B, nu ne-am aștepta ca aceștia să aibă exact aceeași medie și abatere standard. În mod similar, eșantioanele prelevate din grupul de control alimentat cu placebo și cele prelevate din grupul prescris cu medicament ar trebui să aibă o medie ușor diferită și o abatere standard.

Matematic, testul t ia un eșantion din fiecare din cele două seturi și stabilește afirmația problemei asumând o ipoteză nulă conform căreia cele două mijloace sunt egale. Pe baza formulelor aplicabile, anumite valori sunt calculate și comparate cu valorile standard, iar ipoteza nulă asumată este acceptată sau respinsă în consecință.

Dacă ipoteza nulă se califică pentru a fi respinsă, aceasta indică faptul că citirea datelor este puternică și nu este întâmplător. Testul t este doar unul dintre numeroasele teste utilizate în acest scop. În plus, statisticienii trebuie să utilizeze alte teste decât testul t pentru a examina mai multe variabile și teste cu dimensiuni mai mari de eșantion. Pentru o dimensiune mare a eșantionului, statisticienii folosesc un test z. Alte opțiuni de testare includ testul chi-pătrat și testul f.

Există trei tipuri de teste t și sunt clasificate ca teste t dependente și independente.

Cheie de luat cu cheie

Un test t este un tip de statistică inferențială folosită pentru a determina dacă există o diferență semnificativă între mijloacele a două grupuri, care pot fi legate în anumite caracteristici.
Testul t este unul dintre numeroasele teste utilizate în scopul testării ipotezelor în statistici.
Calcularea unui test t necesită trei valori cheie ale datelor. Acestea includ diferența dintre valorile medii de la fiecare set de date (numită diferență medie), abaterea standard a fiecărui grup și numărul de valori ale fiecărui grup.
Există mai multe tipuri diferite de teste care pot fi efectuate în funcție de date și tipul de analiză necesar.

Rezultatele testelor ambigue

Luați în considerare faptul că un producător de medicamente dorește să testeze un medicament nou inventat. Urmează procedura standard de a încerca medicamentul pe un grup de pacienți și de a da un placebo unui alt grup, numit grup de control. Placebo administrat grupului de control este o substanță fără o valoare terapeutică prevăzută și servește ca punct de referință pentru a măsura modul în care reacționează celălalt grup, căruia i se administrează medicamentul real.

După studiul medicamentelor, membrii grupului de control alimentat cu placebo au raportat o creștere a speranței medii de viață de trei ani, în timp ce membrii grupului cărora li se prescrie noul medicament raportează o creștere a speranței medii de viață de patru ani. Observația imediată poate indica faptul că medicamentul funcționează într-adevăr, deoarece rezultatele sunt mai bune pentru grupul care utilizează medicamentul. Cu toate acestea, este de asemenea posibil ca observația să se datoreze întâmplării, în special a unei surprize surprinzătoare. Un test t este util pentru a concluziona dacă rezultatele sunt de fapt corecte și aplicabile întregii populații.

Într-o școală, 100 de elevi din clasa A au obținut, în medie, 85%, cu o abatere standard de 3%. Alți 100 de studenți aparținând clasei B au obținut, în medie, 87%, cu o abatere standard de 4%. În timp ce media clasei B este mai bună decât cea a clasei A, s-ar putea să nu fie corect să sari la concluzia că performanța generală a elevilor din clasa B este mai bună decât cea a elevilor din clasa A. Acest lucru se datorează faptului că, împreună cu medie, abaterea standard a clasei B este, de asemenea, mai mare decât cea a clasei A. Aceasta indică faptul că procentele lor extreme, pe laturile inferioare și superioare, au fost mult mai răspândite în comparație cu cea a clasei A. Un test t poate ajuta la determinarea care clasa a iesit mai bine.

Ipoteze de testare T

Prima presupunere făcută cu privire la testele t se referă la scara de măsurare. Presupunerea pentru un test t este că scara de măsurare aplicată datelor colectate urmează o scară continuă sau ordinală, cum ar fi scorurile pentru un test QI.
A doua presupunere făcută este aceea a unui eșantion simplu aleatoriu, că datele sunt colectate de la o porțiune reprezentativă, aleasă la întâmplare din totalul populației.
A treia presupunere este că datele, atunci când sunt reprezentate grafic, au ca rezultat o curbă de distribuție normală, în formă de clopot.
A patra presupunere este o dimensiune de eșantion rezonabil de mare. Dimensiunea mai mare a eșantionului înseamnă că distribuția rezultatelor trebuie să se apropie de o curbă normală în formă de clopot.
Presupunerea finală este omogenitatea variației. Variația omogenă sau egală există atunci când abaterile standard ale eșantioanelor sunt aproximativ egale.

Calcularea testelor T

Calcularea unui test t necesită trei valori cheie ale datelor. Acestea includ diferența dintre valorile medii de la fiecare set de date (numită diferență medie), abaterea standard a fiecărui grup și numărul de valori ale fiecărui grup.

Rezultatul testului t produce valoarea t. Această valoare t calculată este apoi comparată cu o valoare obținută dintr-un tabel de valori critice (numit T-Distribution Table). Această comparație ajută la determinarea gradului de probabilitate a faptului că diferența dintre mijloace s-a produs din întâmplare sau dacă seturile de date au cu adevărat diferențe intrinseci. Testul t pune întrebări dacă diferența dintre grupuri reprezintă o adevărată diferență în studiu sau dacă este probabil o diferență statistică fără sens.

T-uri de distribuție

Tabelul de distribuție în T este disponibil în formate cu o coadă și cu două cozi. Prima este utilizată pentru evaluarea cazurilor care au o valoare fixă sau un interval cu o direcție clară (pozitivă sau negativă). De exemplu, care este probabilitatea ca valoarea de ieșire să rămână sub -3 sau să obținem mai mult de șapte când rulăm o pereche de zaruri? Acesta din urmă este utilizat pentru analiza legată a intervalului, cum ar fi întrebarea dacă coordonatele se încadrează între -2 și +2.

Calculele pot fi efectuate cu programe software standard care acceptă funcțiile statistice necesare, precum cele găsite în MS Excel.

Valorile T și gradele de libertate

Testul t produce două valori ca ieșire: valoarea t și gradele de libertate. Valoarea t este un raport dintre diferența dintre media celor două seturi de probe și diferența care există în seturile de probe. În timp ce valoarea numărătorului (diferența dintre media celor două seturi de probe) este simplă de calculat, numitorul (diferența care există în seturile de probe) poate deveni un pic complicat în funcție de tipul de valori de date implicate. Numitorul raportului este o măsurare a dispersiei sau a variabilității. Valorile mai mari ale valorii t, numite și scor t, indică faptul că există o diferență mare între cele două seturi de probe. Cu cât valoarea t este mai mică, cu atât există mai multă similitudine între cele două seturi de probe.

Un scor mare t indică faptul că grupurile sunt diferite.
Un scor mic de t indică faptul că grupurile sunt similare.

Gradele de libertate se referă la valorile unui studiu care are libertatea de a varia și sunt esențiale pentru evaluarea importanței și validității ipotezei nule. Calculul acestor valori depinde de obicei de numărul de înregistrări de date disponibile în eșantionul de probe.

T-test corelat (sau în pereche)

Testul t corelat se realizează atunci când probele constau, de obicei, din perechi potrivite de unități similare sau când există cazuri de măsuri repetate. De exemplu, pot exista teste repetate ale acelorași pacienți - înainte și după primirea unui anumit tratament. În astfel de cazuri, fiecare pacient este utilizat ca probă de control împotriva lor înșiși.

Această metodă se aplică și cazurilor în care eșantioanele sunt corelate într-o anumită manieră sau au caracteristici potrivite, precum o analiză comparativă care implică copii, părinți sau frați. Testele t corelate sau în pereche sunt de tip dependent, deoarece acestea implică cazuri în care cele două seturi de probe sunt legate.

Formula pentru calcularea valorii t și a gradelor de libertate pentru un test t asociat este:

Media1 și media2 sunt valorile medii ale fiecărui set de probe, în timp ce var1 și var2 reprezintă variația fiecăruia dintre seturile de probe.

Celelalte două tipuri aparțin testelor t independente. Probele de aceste tipuri sunt selectate independent unul de altul - adică seturile de date din cele două grupuri nu se referă la aceleași valori. Acestea includ cazuri precum un grup de 100 de pacienți împărțiți în două seturi de 50 de pacienți fiecare. Unul dintre grupuri devine grupul de control și i se administrează un placebo, în timp ce celălalt grup primește tratamentul prescris. Aceasta constituie două grupuri de eșantion independente care nu sunt împerecheate între ele.

T-Test de T varianță egală (sau comun)

Testul de varianță egal este utilizat atunci când numărul de eșantioane din fiecare grup este același sau dacă variația celor două seturi de date este similară. Următoarea formulă este utilizată pentru calcularea valorii t și a gradelor de libertate pentru testul de varianță egală:

Valoarea T = medie1 − medie2 (n1−1) × var12 + (n2−1) × var22n1 + n2−2 × 1n1 + 1n2unde: medie1 și medie2 = Valorile medii ale fiecăruia dintre seturile de probe1 și var2 = Varianța fiecăruia dintre sample sets1 și n2 = Numărul de înregistrări din fiecare set de probe \ begin {align} & \ text {T-value} = \ frac {mean1 - mean2} {\ sqrt {\ frac {(n1 - 1) \ times var1 ^ 2 + (n2 - 1) \ times var2 ^ 2} {n1 + n2 - 2}} \ times \ sqrt {\ frac {1} {n1} + \ frac {1} {n2}}} \\ & \ textbf { unde:} \\ & mean1 \ text {și} mean2 = \ text {Valorile medii ale fiecărui} \\ & \ text {din seturile de probe} \\ & var1 \ text {și} var2 = \ text {Varianța fiecăruia dintre seturi de exemple} \\ & n1 \ text {și} n2 = \ text {Numărul de înregistrări din fiecare set de probe} \\ \ end {aliniat} Valoarea T = n1 + n2−2 (n1−1) × var12 + (n2 −1) × var22 × n11 + n21 medie1 − medie2 unde: medie1 și medie2 = Valorile medii ale fiecărui set de probe1 și var2 = Varianța fiecăruia dintre seturile de probe1 și n2 = Numărul de înregistrări pentru fiecare eșantion set

și,

Gradele de libertate = n1 + n2−2where: n1 și n2 = Numărul de înregistrări din fiecare set de probe \ begin {align} & \ text {Gradele de libertate} = n1 + n2 - 2 \\ & \ textbf {unde:} \\ & n1 \ text {și} n2 = \ text {Numărul de înregistrări din fiecare set de probe} \\ \ end {aliniat} Gradele de libertate = n1 + n2−2unde: n1 și n2 = Numărul de înregistrări din fiecare set de probe

Test inegal de variație T

Testul de varianță inegal este utilizat atunci când numărul de eșantioane din fiecare grup este diferit, iar variația celor două seturi de date este diferită. Acest test este denumit și testul t al lui Welch. Următoarea formulă este utilizată pentru calcularea valorii t și a gradelor de libertate pentru un test t de varianță inegal:

Valoare T = medie1 − medie2var12n1 + var22n2 Unde: medie1 și medie2 = Valorile medii ale fiecărui set de probe1 și var2 = Varianța fiecăruia dintre seturile de probe1 și n2 = Numărul de înregistrări din fiecare set de probe \ begin {aliniat} și \ text {T-value} = \ frac {mean1 - mean2} {\ sqrt {\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2}}} \\ & \ textbf {unde:} \ \ & mean1 \ text {și} mean2 = \ text {Valorile medii ale fiecărui} \\ & \ text {din seturile de probe} \\ & var1 \ text {și} var2 = \ text {Varietatea fiecăruia dintre seturile de probe} \ \ & n1 \ text {și} n2 = \ text {Numărul de înregistrări din fiecare set de probe} \\ \ end {aliniat} Valoarea T = n1var12 + n2var22 medie1 − media2 unde: medie1 și medie2 = valori medii din fiecare dintre seturile de probe1 și var2 = Varianța fiecăruia dintre seturile de probe1 și n2 = Numărul de înregistrări din fiecare set de probe

și,

Gradele de libertate = (var12n1 + var22n2) 2 (var12n1) 2n1−1 + (var22n2) 2n2−1 unde: var1 și var2 = Variatia fiecăruia dintre seturile de proben1 și n2 = Numărul de înregistrări din fiecare set de probe \ begin {aliniat } & \ text {Gradele de libertate} = \ frac {\ left (\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2} \ right) ^ 2} {\ frac {\ left ( \ frac {var1 ^ 2} {n1} \ right) ^ 2} {n1 - 1} + \ frac {\ left (\ frac {var2 ^ 2} {n2} \ right) ^ 2} {n2 - 1}} \\ & \ textbf {unde:} \\ & var1 \ text {și} var2 = \ text {Varietatea fiecăruia dintre seturile de probe} \\ & n1 \ text {și} n2 = \ text {Numărul de înregistrări din fiecare set de probe } \\ \ end {aliniat} Gradele de libertate = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2 unde: var1 și var2 = Varianța fiecăruia din seturile de probe1 și n2 = Numărul de înregistrări din fiecare set de probe

Determinarea testului T corect de utilizat

Următoarea diagramă de flux poate fi utilizată pentru a determina ce test t trebuie utilizat pe baza caracteristicilor seturilor de probe. Elementele cheie care trebuie luate în considerare includ dacă înregistrările de probă sunt similare, numărul de înregistrări de date în fiecare set de probe și variația fiecărui set de probe.

Imagine de Julie Bang © Investopedia 2019

Exemplu de test T în variantă inegală

Presupunem că luăm o măsurare în diagonală a tablourilor primite într-o galerie de artă. Un grup de eșantioane include 10 tablouri, în timp ce celălalt include 20 de tablouri. Seturile de date, cu media și valorile de variație corespunzătoare, sunt următoarele:

	Set 1	Set 2
	19.7	28.3
	20.4	26.7
	19.6	20.1
	17, 8	23.3
	18.5	25.2
	18, 9	22.1
	18.3	17.7
	18, 9	27.6
	19.5	20.6
	21.95	13.7
		23.2
		17.5
		20.6
		18
		23.9
		21.6
		24.3
		20.4
		23.9
		13.3
Rău	19.4	21.6
variație	1.4	17.1

Deși media setului 2 este mai mare decât cea a setului 1, nu putem concluziona că toate picturile au o lungime medie în jur de 21, 6 unități, deoarece variația setului 2 este semnificativ mai mare decât setul 1. Este întâmplător sau există cu adevărat diferențe în populația totală a tuturor picturilor primite în galeria de artă ">

Deoarece numărul de înregistrări de date este diferit (n1 = 10 și n2 = 20) și variația este, de asemenea, diferită, valoarea t și gradele de libertate sunt calculate pentru setul de date de mai sus, folosind formula menționată în testul T inegal de varianță secțiune.

Valoarea t este -2.24787. Deoarece semnul minus poate fi ignorat când se compară cele două valori t, valoarea calculată este 2.24787.

Valoarea gradelor de libertate este 24, 38 și este redusă la 24, datorită definiției formulei care necesită rotunjirea valorii la cea mai mică valoare întreagă posibilă.

Ori de câte ori se presupune o distribuție normală, se poate specifica un nivel de probabilitate (nivel alfa, nivel de semnificație, p ) ca criteriu de acceptare. În cele mai multe cazuri, se poate presupune o valoare de 5%.

Folosind gradul de libertate drept 24 și un nivel de semnificație de 5%, o privire asupra tabelului de distribuție a valorilor t oferă o valoare de 2, 064. Compararea acestei valori cu valoarea calculată de 2.247 indică faptul că valoarea t calculată este mai mare decât valoarea tabelului la un nivel de semnificație de 5%. Prin urmare, este sigur să respingem ipoteza nulă că nu există nicio diferență între mijloace. Setul de populație are diferențe intrinseci și nu sunt întâmplător.

Compararea conturilor de investiții Denumirea furnizorului Descrierea divulgatorului de publicitate × Ofertele care apar în acest tabel provin din parteneriate de la care Investopedia primește compensații.

Termeni înrudiți

Cum funcționează Analiza Varianței (ANOVA) Analiza varianței (ANOVA) este un instrument de analiză statistică care separă variabilitatea totală găsită în cadrul unui set de date în două componente: factori aleatori și sistematici. mai mult Înțelegerea distribuției T Distribuția AT este un tip de funcție de probabilitate adecvată pentru estimarea parametrilor populației pentru mărimi mici de eșantion sau variații necunoscute. mai multe grade de libertate Definiție Gradele de libertate se referă la numărul maxim de valori independente din punct de vedere logic, care sunt valori care au libertatea de a varia, în eșantionul de date. mai mult Cum funcționează abaterea standard reziduală Abaterea standard reziduală este un termen statistic utilizat pentru a descrie diferența de abateri standard ale valorilor observate față de valorile previzionate, așa cum arată punctele dintr-o analiză de regresie. mai mult Cum funcționează statistica pătratului Chi O statistică a chi-pătratului (χ2) este un test care măsoară modul în care așteptările se compară cu datele reale observate (sau rezultatele modelului). Datele utilizate la calcularea unei statistici pătrate chi trebuie să fie aleatorii, brute, excluse reciproc, extrase din variabile independente și extrase dintr-un eșantion suficient de mare. mai mult Cum se folosește testul Wilcoxon Testul Wilcoxon, care se referă fie la testul Sum Sum și la testul Rank Signed, este un test nonparametric care compară două grupuri împerecheate. mai multe link-uri partenere

← Dividend rezidual

Sortiment exclusiv →

Recomandat

Lasă Un Comentariu