Så här räknar man ut om det förekommer lönediskriminering

Så här räknar man ut om det förekommer lönediskriminering

  • Posted on: November 1, 2020
  • By:

Statistik, särskilt om det rör relativt komplexa fenomen som löneskillnader och lönediskriminering, är inget som vem som helst kan syssla med, åtminstone om det ska vara korrekt. Innan man har lärt sig att utföra och tolka multipla regressionsanalysmodeller går det inte att prata om diskriminering mellan till exempel män och kvinnor eller mellan inrikes och utrikes födda. Men att lära sig principerna och komma lite närmare kärnan av metoden och verkligheten är ändå viktigt. Därför går jag går igenom några viktiga principer och steg för att förstå upplägget.

Om vi till exempel vill förstå löneskillnader mellan män och kvinnor måste vi jämföra yrkeskategori för yrkeskategori. Tittar man på aggregerade lönenivåer och löneskillnader inom till exempel ett flygbolag kan vi se att män tjänar mest, men det beror sannolikt på att piloter tjänar betydligt mer än flygvärdar och det finns fler manliga än kvinnliga piloter. Jämför vi däremot manliga och kvinnliga pilotlöner ser vi dock att skillnaderna sannolikt är mycket små, och detta av två skäl. Det ena är att det är olagligt med lönediskriminering; det andra är att företag skulle anställa fler kvinnor än män – åtminstone inom de kategorier där det finns ett stort utbud av kvinnlig arbetskraft – om de trodde att de kunde hålla nere lönerna eftersom det ligger i företags egenintressen att maximera vinster och minimera utgifter.

Ett annat misstag är att bara titta på aggregerad utbildningsnivå mätt i antal år som görs i en del sammanhang, särskilt bland journalister (som inte förstår sig på statistisk analys). Detta beror på två skäl: det ena är att utbildningens typ eller kategori ofta är viktigare än antal år som den varar. Det finns exempelvis större efterfrågan på civilingenjörer än sociologer och genusvetare, och civilingenjörsutbildningar är avsevärt svårare än genusvetenskap som i hög grad inte är särskilt vetenskaplig utan tämligen ideologisk (i varierande grad kan det även gälla många andra discipliner). Det andra skälet är att utbildningen måste vara ändamålsenlig. Om målet är att bli pilot måste man genomgå en adekvat, standardiserad pilotutbildning – andra utbildningar är helt irrelevanta. Samma sak med bland annat läkare, jurister, arkitekter, ekonomer, och mycket annat.

En annan jämförelse, där tillgång och efterfrågan på arbetsmarknaden är central, gäller mer eller mindre välbetalda yrken som endast kräver gymnasial utbildning och kortare introduktionsutbildningar, i jämförelse med diverse akademiska utbildningar som har svag arbetsmarknadsanknytning med liten efterfrågan. Det kan förklara varför VVS-montörer, elektriker och byggnadsarbetare tjänar bättre än sociologer eller ungefär lika bra eller bättre än lärare, veterinärer, sjuksköterskor och socionomer, som ofta har utbildat sig i 3-5 år. Vid aggregerade jämförelser är det helt centralt att betänka tillgång och efterfrågan på arbetsmarknaden.

Då hamnar vi återigen i att det mest relevanta är att jämföra specifika yrkeskategorier. För att det ska kunna ske behövs givetvis riktiga data, och det är inget som går att få fram hur som helst. Man måste vara forskare för at få fram sådana, och även då är det svårt och tidskrävande, men i en del officiella databaser går det att få fram en del sådana uppgifter för vem som helst som är intresserad. Det krävs även att man har ett riktigt statistikprogram på datorn, till exempel Mplus, SPSS eller AMOS, men för de som inte har råd med dessa kan man installera Excels statistikprogram och utföra regressionsanalyser. (Dock räknar inte Excel automatiskt ut de standardiserade beta-koefficienterna, varför man måste göra det något mer manuellt eller nöja sig med de icke-standardiserade beta-koefficienterna.)

Ett exempel
Så här skulle det dock kunna se ut. Y motsvarar lönerna bland, låt säga, 100 läkare på Karolinska sjukhuset – 50 kvinnor och 50 män. Det skulle vara önskvärt med ännu fler observationer men detta är nu endast ett fiktivt exempel. Dessa månadslöner mäts i svenska kronor. Y är en kontinuerlig variabel som också är den så kallade beroende variabeln, den variabel som ska förklaras med hjälp av andra variabler. De förklarande eller oberoende variablerna är i exemplet följande fem.

Utbildningsnivå för läkare har i exemplet kodats som en så kallad dummyvariabel som antar värdena 0 och 1. Det är för att antingen har man läkarexamen eller inte, medan antal utbildningsår i sig är ointressant i sammanhanget.

Däremot är arbetslivserfarenhet en kontinuerlig oberoende variabel som kan mätas i antal månader. Sannolikt har läkare som arbetat 150 månader högre genomsnittslön än de som arbetat 36 månader. Därför är den viktig att ha med.

Även antal arbetade timmar utgör en kontinuerlig variabel som kan mätas på antingen genomsnittlig vecko-, månads- eller årsbasis, helst sammanlagda timmar under ett helt år som har högre reliabilitet. Arbetsgivare/chefer kan sannolikt belöna flitiga kolleger som arbetar mycket och har låg sjukfrånvaro. Givetvis påverkar även effektivitet och kvalitet i arbetet men det kan vara svårare att mäta.

Ytterligare en variabel, som kan mätas på olika sätt, bland annat detta, är så kallade icke-kognitiva förmågor eller personlighetsdrag. Det är i sig ett komplicerat fenomen och hur det hänger ihop med lönenivåer och löneskillnader mellan individer, men i exemplet tänker vi oss att personer med hög grad av personlighetsdraget assertiveness (självsäkerhet) är bättre på att löneförhandla, medan hög grad av agreeableness kan vara negativt korrelerat med löneutveckling eftersom vänliga, prosociala personer inte tar för sig lika mycket i löneförhandlingarna. På basis av genomsnittliga skillnader har män sannolikt högre assertiveness och kvinnor högre agreeableness men det varierar mycket på individnivå. Även andra drag eller förmågor kan även ha viss inverkan, till exempel conscientiousness som tenderar att interkorrelera med antal arbetade timmar. Därför vore det bra om det fanns sådana data för varje individ.

Slutligen kan vi mäta antalet månader som kvinnor eller män har tagit ut föräldraledighet, vilket kan vara alltifrån 0 till så mycket som 30-40 om en kvinna har fött flera barn. Sannolikt får läkare få barn men givetvis varierar det. Det skulle i sin tur delvis kunna förklara varför kvinnliga läkare, liksom kvinnor i allmänhet, delvis straffas för att bli mödrar i stället för att satsa på karriären.

Regressionsmodell 1

Y = kvinnliga löner

X1 = utbildningsnivå (dummyvariabel, 0 = läkarexamen; 1 = inte läkarexamen)

X2 = arbetslivserfarenhet mätt i år och månader

X3 = antal arbetade timmar

X4 = icke-kognitiva förmågor/personlighetsdrag

X5 = föräldraledighet

Regressionsmodell 2

Y = manliga löner

X1 = utbildningsnivå (dummyvariabel, 0 = läkarexamen; 1 = inte läkarexamen)

X2 = arbetslivserfarenhet mätt i år och månader

X3 = antal arbetade timmar

X4 = icke-kognitiva förmågor/personlighetsdrag

X5 = föräldraledighet

I nästa steg kan vi helt enkelt räkna ut genomsnittslönerna för männen och kvinnorna och se om det finns någon skillnad redan vid en sådan simpel jämförelse. Sedan utför vi regressionsanalyserna med de fem förklarande variablerna för männen och kvinnorna och ser i vilken grad som dessa kan förklara kvinnornas respektive männens löner. Vi jämför därefter genomsnittsskillnaderna mellan y-variablerna och x-variablerna för män respektive kvinnor. Ett sätt att göra det är att ställa upp de 50 kvinnorna och de 50 männen i slumpmässiga parvisa uppställningar och jämföra differensen mellan dessa par gällande y- och x-variablerna. Paren spelar i sig ingen roll eftersom könsdifferensen i slutändan ändå blir densamma om samtliga 100 observationer finns med. Sedan regresseras lönedifferensen för varje par som y och differensen för varje par utifrån de fyra-fem x-variablerna på följande sätt:

Y = löneskillnad (differens)

X1 = utbildningsnivå (differens)

X2 = arbetslivserfarenhet mätt i år och månader (differens)

X3 = antal arbetade timmar (differens)

X4 = icke-kognitiva förmågor (differens)

X5 = föräldraledighet (differens)

Vi skulle dock kunna tänka oss att alla 100 läkare redan har samma utbildningsnivå, läkarexamen, varför X1 kan utelämnas i detta steg. Vi kan i detta steg göra två kontrollmodeller: en för mäns eventuella övertag och en för kvinnors eventuella underläge, om det nu ens finnas ett sådant. Dessa kallas då regressionsmodeller 3 och 4.

Först då får vi fram följande information: 1) Vilka variabler har högre förklaringsvärde än andra? 2) Kvarstår någon oförklarad varians mellan män och kvinnor som är verksamma inom samma yrkeskategori, även när man har kontrollerat för de fem ovanstående variablerna? Det vill säga, finns det någon eller några utelämnade variabler som borde ha infogats i en hierarkisk regressionsmodell som kan öka R2, den statistiska styrkan i modellerna? Några ytterligare variabler som skulle kunna infogas och öka förklaringsvärdet något är ålder och kognitiva förmågor, oftast mätt genom standardiserade IQ-tester (till exempel WAIS-V, abbreviated version). Dock skulle man kunna tänka sig att interkorrelationen mellan ålder och arbetslivserfarenhet är hög, vilket kan leda till så kallad multikollinearitet. Detta kan bland annat undersökas med en Pearson-korrelation – om den närmar sig höga värden som r = .75 kan vi tänka oss att det föreligger multikollinearitet som leder till delvis missvisande analyser. I så fall bör ålder utelämnas i regressionsmodellen. Även kognitiv förmåga kan vara överflödig eftersom läkarna redan har genomgått en svår utbildning som kräver hög kognitiv förmåga, men det skulle kunna finnas ett svagt positivt samband inom en sådan grupp. I korta drag bör vi ha med den variabeln om det finns data. Tidigare forskning visar att PIACC, kognitiv kompetens bland vuxna, till ganska stora del kan förklara löneskillnader om man konstanthåller andra variabler.

Förhoppningsvis har detta exempel – även utan att mata in riktiga data – bidragit till en lite mer komplex och nyanserad förståelse för fenomen som löneskillnader och deras eventuella förklaringar. Innan man börjar spekulera i könsrelaterad lönediskriminering, som dessutom är olaglig och går mot företags egna vinstdrivande intressen, måste man kontrollera för relevanta variabler på basis av riktiga data och inte gissningar, antaganden eller anekdoter. Annars är det kanske bättre att låta de som kan sköta det här och inte uttala sig om saker som det saknas kompetens kring.