In statistieke is 'n uitskieter of 'uitskieter' 'n datum wat baie ver afwyk van enige ander datum in 'n steekproef of stel datums (die stel datums word data genoem). Dikwels kan 'n uitskieter in 'n datastel dien as 'n waarskuwing vir die statistikus oor 'n abnormaliteit of eksperimentele fout in die metings wat geneem is, wat kan lei dat die statistikus die uitskieter uit die datastel kan verwyder. As die statistikus die uitskieters van die datastel verwyder, kan die gevolgtrekkings uit die studie baie anders wees. Daarom is dit baie belangrik om te weet hoe om uitskieters te bereken en te ontleed om die korrekte begrip van 'n statistiese gegewe stel te verseker.
Stap
Stap 1. Leer hoe om moontlike uitstaande datums te identifiseer
Voordat ons besluit of uitstaande datums uit die datumset verwyder moet word, moet ons natuurlik identifiseer watter datums die potensiaal het om uitskieters te word. Oor die algemeen is 'n uitskieter 'n gegewe wat baie ver van die ander datums in een datastel afwyk - met ander woorde 'n uitskieter is 'buite' van die ander datums. Dit is gewoonlik maklik om uitskieters in 'n datatabel of (veral) 'n grafiek op te spoor. As een stel datums visueel met 'n grafiek beskryf word, sal die uitstaande datum "baie ver" van die ander datums blyk te wees. As die meeste datums in 'n datastel byvoorbeeld 'n reguit lyn vorm, sal die uitstaande datum nie redelikerwys geïnterpreteer word as die reël nie.
Kom ons kyk na 'n stel datums wat die temperature van 12 verskillende voorwerpe in 'n kamer voorstel. As 11 voorwerpe 'n temperatuur van ongeveer 70 Fahrenheit (21 grade Celsius) het, maar die 12de voorwerp, 'n oond, het 'n temperatuur van 300 Fahrenheit (150 grade Celsius), kan onmiddellik gesien word dat die oondtemperatuur heel waarskynlik sal wees. 'n uitskieter
Stap 2. Rangskik die datums in 'n stel datums van laagste na hoogste
Die eerste stap by die berekening van uitskieters in 'n datastel is om die mediaan (middelwaarde) van die datastel te vind. Hierdie taak word baie eenvoudig as die datums in 'n stel datums van die kleinste tot die grootste gerangskik is. Reël dus die datums in een so 'n datastel voordat u verder gaan.
Kom ons gaan voort met die voorbeeld hierbo. Dit is ons stel datums wat die temperatuur van verskeie voorwerpe in 'n kamer voorstel: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. As ons die datums van laagste na hoogste rangskik, word die volgorde van die datums: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Stap 3. Bereken die mediaan van die datastel
Die mediaan van 'n datastel is 'n nulpunt waar die ander helfte van die nulpunt bo die nulpunt is en die oorblywende helfte daaronder - basies is die nulpunt die nulpunt wat in die "middel" van die nulpuntstel is. As die aantal datums in 'n datumreeks onewe is, is dit baie maklik om te vind - die mediaan is die datum wat dieselfde getal bo en onder dit het. As die aantal datums in die stel datums egter gelyk is, omdat geen datum in die middel pas nie, word die 2 datums in die middel gemiddeld om die mediaan te vind. Daar moet op gelet word dat by die berekening van uitskieters die mediaan gewoonlik die veranderlike Q2-ni toegeken word omdat Q2 tussen Q1 en Q3 is, die onderste en boonste kwartiel, wat ons later sal bespreek.
- Om nie te verwar word met 'n datastel waar die aantal datums gelyk is nie-die gemiddelde van die 2 middelste datums gee dikwels 'n getal terug wat nie in die datastel self is nie-dit is goed. As die 2 middelste datums egter dieselfde getal het, sal die gemiddelde natuurlik ook dieselfde getal wees, wat ook goed is.
- In die voorbeeld hierbo het ons 12 datums. Die 2 middelste datums is onderskeidelik die 6de en 7de datums-70 en 71. Dus, die mediaan van ons stel datums is die gemiddelde van hierdie 2 getalle: ((70 + 71) / 2), = 70.5.
Stap 4. Bereken die onderste kwartiel
Hierdie waarde, wat ons die veranderlike Q1 gee, is die datum wat 25 persent (of 'n kwart) van die datums verteenwoordig. Met ander woorde, dit is die datum wat die datums onder die mediaan sny. As die aantal datums onder die mediaan gelyk is, moet u die 2 datums in die middel weer gemiddeld maak om Q1 te vind, net soos u die mediaan self sou vind.
In ons voorbeeld is daar 6 datums wat bo die mediaan lê, en 6 datums wat onder die mediaan lê. Dit beteken dat ons, om die onderste kwartiel te vind, die 2 datums in die middel van die 6 datums onder die mediaan moet gemiddelde. Die 3de en 4de datums van 6 datums onder die mediaan is albei 70. Die gemiddelde is dus ((70 + 70) / 2), = 70. 70 word ons Q1.
Stap 5. Bereken die boonste kwartiel
Hierdie waarde, wat ons die veranderlike Q3 gee, is die datum waarop 25 persent van die datums in die datastel is. Om Q3 te vind, is amper dieselfde as om Q1 te vind, behalwe dat ons in hierdie geval na die datums bo die mediaan kyk, nie onder die mediaan nie.
In voortsetting van ons voorbeeld hierbo, is die 2 datums in die middel van die 6 datums bo die mediaan 71 en 72. Die gemiddelde van hierdie 2 datums is ((71 + 72)/2), = 71, 5. 71, 5 synde ons Q3.
Stap 6. Vind die interkwartielafstand
Noudat ons Q1 en Q3 gevind het, moet ons die afstand tussen hierdie twee veranderlikes bereken. Die afstand van Q1 tot Q3 word gevind deur Q1 van Q3 af te trek. Die waardes wat u vir interkwartiele afstande kry, is baie belangrik om die grense van nie-uitstaande datums in u datastel te definieer.
- In ons voorbeeld is ons waardes van Q1 en Q3 70 en 71, 5. Om die interkwartielafstand te bepaal, trek ons Q3 af - Q1 = 71,5 - 70 = 1, 5.
- Daar moet op gelet word dat dit ook waar is, selfs al is Q1, Q3 of albei negatiewe getalle. As ons Q1 -waarde byvoorbeeld -70 was, sou ons korrekte interkwartielafstand 71,5 -(-70) = 141, 5 wees.
Stap 7. Soek die "binneheining" in die datastel
Uitskieters word gevind deur te kyk of die datum binne die getalgrense val wat "binneheining" en "buitenheining" val. 'N Gegevens wat buite die binneheining van die nulpuntstel val, word 'n' klein uitskieter 'genoem, terwyl 'n datum wat buite die buitenste heining val 'n' groot uitskieter 'genoem word. Om die binneste heining in u datumset te vind, vermenigvuldig eers die interkwartielafstand met 1, 5. Voeg dan die resultaat met Q3 en trek dit ook af van Q1. Die twee waardes wat u kry, is die binneheininggrense van u datastel.
-
In ons voorbeeld is die tussenkwartielafstand (71,5 - 70), of 1,5. Vermenigvuldig 1,5 met 1,5 wat tot 2,25 lei. Ons voeg hierdie getal by Q3 en trek Q1 af met hierdie getal om die grense van die binneheining soos volg te vind:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Die grense van ons binneheining is dus 67, 75 en 73, 75.
-
In ons stel datums is slegs die oondtemperatuur, 300 Fahrenheit, buite hierdie perke, en hierdie gegewens is dus 'n geringe afwyking. Ons het egter nog nie bereken of hierdie temperatuur 'n groot afwyking is nie, dus moenie tot gevolgtrekkings kom voordat ons ons berekeninge gedoen het nie.
Stap 8. Soek die “buitenste heining” in die datastel
Dit word gedoen op dieselfde manier as om die binneste heining te vind, behalwe dat die interkwartielafstand met 3 vermenigvuldig word in plaas van 1.5 Die resultaat word dan by Q3 gevoeg en van Q1 afgetrek om die boonste en onderste grense van die buitenste heining te vind.
-
In ons voorbeeld, vermenigvuldig die interkwartielafstand met 3 gee (1, 5 x 3), of 4, 5. Ons vind die grense van die buitenste heining op dieselfde manier as voorheen:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Die grense van die buitenste heining is 65,5 en 76.
-
Die datums wat buite die grens van die buitenste heining lê, word groot uitskieters genoem. In hierdie voorbeeld is die oondtemperatuur, 300 Fahrenheit, duidelik buite die buitenste heining, so hierdie datum is 'beslis' 'n belangrike uitblinker.
Stap 9. Gebruik kwalitatiewe oordeel om te bepaal of u die uitstaande datum wil "weggooi" of nie
Met behulp van die metode wat hierbo beskryf is, kan bepaal word of 'n gegewens 'n geringe datum, 'n groot nulpunt is, of glad nie 'n uitstaande nie. Maak egter geen fout nie - die vind van 'n datum as 'n uitskieter dui slegs die datum aan as 'n 'kandidaat' wat uit die datastel verwyder moet word, nie as 'n datum wat 'weggegooi' moet word nie. Die 'rede' wat veroorsaak dat 'n uitstaande datum van ander datums in 'n datastel afwyk, is baie belangrik om te bepaal of dit weggegooi moet word of nie. Oor die algemeen kan 'n uitskieter wat veroorsaak word deur byvoorbeeld 'n fout in meting, opname of eksperimentele beplanning, weggegooi word. Aan die ander kant word uitskieters wat nie deur foute veroorsaak word nie en wat dui op nuwe inligting of neigings wat nie voorheen voorspel is nie, gewoonlik "nie" weggegooi nie.
- 'N Ander maatstaf wat oorweeg moet word, is of die uitskieter 'n groot uitwerking op die gemiddelde van 'n datastel het, dit wil sê of die uitskieter dit verwar of verkeerd laat lyk. Dit is baie belangrik om te oorweeg as u gevolgtrekkings wil maak uit die gemiddelde van u datastel.
-
Kom ons bestudeer ons voorbeeld. Aangesien dit in hierdie voorbeeld "hoogs" onwaarskynlik lyk dat die oond 300 Fahrenheit bereik het deur onvoorspelbare natuurkragte, kan ons met byna seker tot die gevolgtrekking kom dat die oond per ongeluk aan is, wat 'n afwyking van hoë temperatuur tot gevolg het. As ons nie die uitskieters verwyder nie, is ons datumsetgemiddelde (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 grade Celsius)), terwyl die gemiddelde as ons die uitskieters verwyder (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 grade Celsius) is.
Aangesien hierdie uitskieters deur menslike foute veroorsaak is en omdat dit verkeerd sou wees om te sê dat die gemiddelde kamertemperatuur byna 90 Fahrenheit (32 grade Celsius) bereik, is dit beter om te kies om ons uitskieters "weg te gooi"
Stap 10. Weet die belangrikheid (soms) van die handhawing van uitskieters
Alhoewel sommige uitskieters uit die datastel verwyder moet word omdat dit foute veroorsaak en/of die resultate onakkuraat of verkeerd maak, moet sommige uitskieters gehandhaaf word. As dit byvoorbeeld lyk asof 'n uitskieter natuurlik verkry word (dit wil sê nie die gevolg van 'n fout nie) en/of 'n nuwe perspektief bied op die verskynsel wat bestudeer word, moet die uitskieter nie uit die datastel verwyder word nie. Wetenskaplike navorsing is gewoonlik 'n baie sensitiewe situasie as dit by uitskieters kom - verkeerd verwydering kan beteken dat inligting weggegooi word wat dui op 'n nuwe neiging of ontdekking.