Slik oppdager du ekstremer: 10 trinn (med bilder)

Innholdsfortegnelse:

Slik oppdager du ekstremer: 10 trinn (med bilder)
Slik oppdager du ekstremer: 10 trinn (med bilder)

Video: Slik oppdager du ekstremer: 10 trinn (med bilder)

Video: Slik oppdager du ekstremer: 10 trinn (med bilder)
Video: How To Be A Sneaker Designer For Nike and Jordan Brand | Jobs Unlisted 2024, November
Anonim

I statistikk er en outlier eller "outlier" et datum som avviker veldig langt fra alle andre data i en prøve eller et sett med data (settet med data kalles data). Ofte kan en outlier i et datasett fungere som en advarsel til statistikeren om en abnormitet eller eksperimentell feil i målingene som er tatt, noe som kan føre til at statistikeren fjerner outlier fra datasettet. Hvis statistikeren fjerner ekstreme verdier fra datasettet, kan konklusjonene fra studien være svært forskjellige. Derfor er det veldig viktig å vite hvordan man beregner og analyserer ekstremer for å sikre riktig forståelse av et statistisk datasett.

Steg

Beregn utfallere Trinn 1
Beregn utfallere Trinn 1

Trinn 1. Lær hvordan du identifiserer potensielt utestående data

Før vi bestemmer oss for om vi vil fjerne utfallsdata fra datasettet eller ikke, må vi selvsagt identifisere hvilke datums som har potensial til å bli ekstreme. Generelt er en outlier et datum som avviker veldig langt fra de andre datumsene i ett datasett - med andre ord er en outlier "utenfor" de andre datumsene. Det er vanligvis lett å oppdage ekstreme verdier i en datatabell eller (spesielt) en graf. Hvis ett sett med data er beskrevet visuelt med en graf, ser det utfallende datoen ut til å være "veldig langt" fra de andre datumene. Hvis for eksempel de fleste av dataene i et datasett danner en rett linje, vil ikke det utfallende datoen med rimelighet bli tolket som å danne den linjen.

La oss se på et sett med data som representerer temperaturen på 12 forskjellige objekter i et rom. Hvis 11 objekter har en temperatur på ca. 21 grader Celsius, men det tolvte objektet, en ovn, har en temperatur på 150 grader Celsius), kan det umiddelbart sees at temperaturen i ovnen er høyst sannsynlig. en outlier

Beregn utfallere Trinn 2
Beregn utfallere Trinn 2

Trinn 2. Ordne dataene i et sett med data fra laveste til høyeste

Det første trinnet for å beregne utfall i et datasett er å finne medianen (mellomverdien) for det nullpunktssettet. Denne oppgaven blir veldig enkel hvis dataene i et datasett er ordnet fra de minste til de største. Så, før du fortsetter, ordne datumene i ett slikt datasett.

La oss fortsette eksemplet ovenfor. Dette er vårt sett med data som representerer temperaturen til flere objekter i et rom: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Hvis vi ordner datumene fra laveste til høyeste, blir rekkefølgen på datumene: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Beregn utfallere Trinn 3
Beregn utfallere Trinn 3

Trinn 3. Beregn medianen for datasettet

Medianen til et nullpunktssett er et nullpunkt der den andre halvdelen av nullpunktet er over nullpunktet og den resterende halvdelen er under det - i utgangspunktet er nullpunktet nullpunktet som er i "midten" av nullpunktssettet. Hvis antall datum i et datasett er oddetall, er det veldig enkelt å finne - medianen er nullpunktet som har samme tall over og under det. Imidlertid, hvis antallet datum i settet med data er jevnt, da ingen datum passer i midten, beregnes de to datumene i midten i gjennomsnitt for å finne medianen. Det skal bemerkes at medianen tildeles vanligvis variabelen Q2-ni ved beregning av ekstremer, fordi Q2 er mellom Q1 og Q3, nedre og øvre kvartil, som vi vil diskutere senere.

  • For ikke å forveksle med et datasett hvor antallet datumer er jevnt-gjennomsnittet av de to midterste datumene vil ofte returnere et tall som ikke er i selve datasettet-dette er greit. Men hvis de to midterste datumene er det samme tallet, vil gjennomsnittet selvfølgelig også være det samme tallet, noe som også er greit.
  • I eksemplet ovenfor har vi 12 data. De to midterste datumene er henholdsvis 6. og 7. datum-70 og 71. Medianen for datasettet vårt er gjennomsnittet av disse 2 tallene: ((70 + 71) / 2), = 70.5.
Beregn utfallere Trinn 4
Beregn utfallere Trinn 4

Trinn 4. Beregn den nedre kvartilen

Denne verdien, som vi gir variabelen Q1, er datoen som representerer 25 prosent (eller en fjerdedel) av dataene. Med andre ord er det datumet som deler seksjonene som ligger under medianen. Hvis antallet datum under medianen er jevnt, må du igjen gjennomsnittet de 2 datumene i midten for å finne Q1, akkurat som du ville finne selve medianen.

I vårt eksempel er det 6 datums som ligger over medianen, og 6 datums som ligger under medianen. Dette betyr at for å finne den nedre kvartilen må vi gjennomsnittlig de 2 datumene i midten av de 6 dataene under medianen. Det tredje og fjerde datumet av 6 datoer under medianen er begge 70. Så gjennomsnittet er ((70 + 70) / 2), = 70. 70 blir vårt første kvartal.

Beregn utfallere Trinn 5
Beregn utfallere Trinn 5

Trinn 5. Beregn øvre kvartil

Denne verdien, som vi gir variabelen Q3, er nullpunktet som det er 25 prosent av dataene i nullpunktssettet. Å finne Q3 er stort sett det samme som å finne Q1, bortsett fra at vi i dette tilfellet ser på dataene over medianen, ikke under medianen.

I fortsettelse av vårt eksempel ovenfor er de 2 datumene i midten av de 6 datumene over medianen 71 og 72. Gjennomsnittet for disse 2 datumene er ((71 + 72)/2), = 71, 5. 71, 5 er vårt tredje kvartal.

Beregn utfallere Trinn 6
Beregn utfallere Trinn 6

Trinn 6. Finn mellomkvartilavstanden

Nå som vi har funnet Q1 og Q3, må vi beregne avstanden mellom disse to variablene. Avstanden fra Q1 til Q3 blir funnet ved å trekke Q1 fra Q3. Verdiene du får for mellomkvartile avstander er svært viktige for å definere grensene for ikke-utestående data i ditt datasett.

  • I vårt eksempel er våre verdier for Q1 og Q3 70 og 71, 5. For å finne avstanden mellom kvartalene trekker vi Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Det skal bemerkes at dette også er sant selv om Q1, Q3 eller begge er negative tall. For eksempel, hvis vår Q1 -verdi var -70, ville vår korrekte mellomkvartilavstand være 71,5 -(-70) = 141, 5.
Beregn utfallere trinn 7
Beregn utfallere trinn 7

Trinn 7. Finn det "indre gjerdet" i referansesettet

Ekstremiteter blir funnet ved å kontrollere om nullpunktet faller innenfor tallgrensene som kalles "indre gjerde" og "ytre gjerde". Et nullpunkt som faller utenfor det indre gjerdet til nullpunktssettet blir referert til som en "mindre utfall", mens et nullpunkt som faller utenfor det ytre gjerdet blir referert til som en "større utfall". For å finne det indre gjerdet i ditt datasett, multipliserer du først den interkvartile avstanden med 1, 5. Deretter legger du til resultatet med Q3 og trekker det også fra Q1. De to verdiene du får er de indre gjerdegrensene for ditt datasett.

  • I vårt eksempel er mellomkvartilavstanden (71,5 - 70), eller 1,5. Multipliser 1,5 med 1,5 som resulterer i 2,25. Vi legger dette tallet til Q3 og vi trekker Q1 med dette tallet for å finne grensene for det indre gjerdet som følger:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Så grensene for vårt indre gjerde er 67, 75 og 73, 75.
  • I vårt sett med data er bare ovntemperaturen, 300 Fahrenheit - utenfor disse grensene, og derfor er dette datoen en mindre utfall. Imidlertid har vi fortsatt ikke beregnet om denne temperaturen er en stor outlier, så ikke dra konklusjoner før vi har gjort våre beregninger.

    Beregn utfallere Trinn 7Bullet2
    Beregn utfallere Trinn 7Bullet2
Beregn utfallere Trinn 8
Beregn utfallere Trinn 8

Trinn 8. Finn det "ytre gjerdet" i datasettet

Dette gjøres på samme måte som å finne det indre gjerdet, bortsett fra at mellomkvartilavstanden multipliseres med 3 i stedet for 1,5. Resultatet legges deretter til Q3 og trekkes fra Q1 for å finne de øvre og nedre grensene for det ytre gjerdet.

  • I vårt eksempel multipliserer den interkvartile avstanden med 3 (1, 5 x 3) eller 4, 5. Vi finner grensene for det ytre gjerdet på samme måte som før:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Grensene for det ytre gjerdet er 65,5 og 76.
  • Datumene som ligger utenfor grensen til det ytre gjerdet blir referert til som store utfall. I dette eksemplet er ovntemperaturen, 300 Fahrenheit, klart utenfor det ytre gjerdet, så dette datoen er "definitivt" en stor outlier.

    Beregn utfallere Trinn 8Bullet2
    Beregn utfallere Trinn 8Bullet2
Beregn utfallere Trinn 9
Beregn utfallere Trinn 9

Trinn 9. Bruk kvalitativ dømmekraft for å avgjøre om du vil "kaste" utfallsdatoen eller ikke

Ved å bruke metoden beskrevet ovenfor, kan det fastslås om et nullpunkt er et mindre nullpunkt, et større nullpunkt eller ikke et utfall i det hele tatt. Imidlertid må du ikke gjøre noen feil - å finne et nullpunkt som et utfall bare markerer dette nullpunktet som en "kandidat" som skal fjernes fra nullpunktssettet, ikke som et nullpunkt som "bør" kastes. "Grunnen" som får et utfallende datum til å avvike fra andre data i et datasett er veldig viktig for å avgjøre om det skal kastes eller ikke. Generelt kan for eksempel en outlier forårsaket av en feil i måling, registrering eller eksperimentell planlegging forkastes. På den annen side blir avvik som ikke er forårsaket av feil og som indikerer ny informasjon eller trender som ikke tidligere var spådd, vanligvis "ikke" kastet.

  • Et annet kriterium å vurdere er om outlier har stor effekt på gjennomsnittet av et datasett, dvs. om outlier forvirrer det eller får det til å virke feil. Dette er veldig viktig å vurdere hvis du har tenkt å trekke konklusjoner fra gjennomsnittet av datasettet ditt.
  • La oss studere vårt eksempel. Siden det i dette eksemplet virker "svært" usannsynlig at ovnen nådde 300 Fahrenheit gjennom uforutsigbare naturkrefter, kan vi med nesten sikkerhet konkludere med at ovnen ved et uhell ble slått på, noe som resulterte i et feilpunkt ved høy temperatur. Dessuten, hvis vi ikke fjerner utfallene, er gjennomsnittsdatosettet vårt (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 grader Celsius)), mens gjennomsnittet hvis vi fjerner ekstremer er (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 grader Celsius).

    Siden disse utsvingene var forårsaket av menneskelige feil og fordi det ville være feil å si at den gjennomsnittlige romtemperaturen når nesten 32 grader Celsius, er det bedre å velge å "kaste" våre ekstremer

Beregn utfallere Trinn 10
Beregn utfallere Trinn 10

Trinn 10. Kjenn viktigheten (noen ganger) av å opprettholde utfall

Selv om noen ekstremer bør fjernes fra referansesettet fordi de forårsaker feil og/eller gjør resultatene unøyaktige eller feilaktige, bør noen avvikene opprettholdes. Hvis for eksempel en outlier ser ut til å være naturlig ervervet (det vil si ikke et resultat av en feil) og/eller gir et nytt perspektiv på fenomenet som studeres, bør outlier ikke fjernes fra datasettet. Vitenskapelig forskning er vanligvis en veldig sensitiv situasjon når det gjelder ekstremer - feilaktig fjerning av outliers kan bety å kaste informasjon som indikerer en ny trend eller oppdagelse.

La oss for eksempel si at vi designer et nytt stoff for å øke størrelsen på fisk i en fiskedam. Vi vil bruke det gamle settet med data ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), bortsett fra at hver dato representerer en fiskes vekt denne gangen (i gram) etter å ha fått et annet eksperimentelt stoff fra fødselen. Med andre ord får det første stoffet en fisk til å veie 71 gram, det andre stoffet får en annen fisk til å veie 70 gram, og så videre. I dette tilfellet er 300 "fortsatt" en stor outlier, men vi bør ikke forkaste dette datoen fordi det antar at det ble oppnådd uten feil, representerer en suksess i studien. Legemidlet som kan få fisk til å veie 300 gram fungerer bedre enn alle andre legemidler, så dette er faktisk det "viktigste" i datasettet vårt, ikke det "minst viktige"

Anbefalt: