Észrevetted, hogy ha beírod a MidJourney-nek, hogy „data scientist”, akkor kb 20-ból 19-szer (bár igazából 20-ból 20-szor) egy szemüveges férfit képzel el és fest meg? Megmondom őszintén — szemüveges férfiként — ez elsőre nekem egyáltalán nem szúrt szemet.
Vasarhelyi Orsolya, PhD hívta fel rá a figyelmemet… Pontosabban egy előadásában hallottam a jelenségről. Egyből leteszteltem a dolgot (2023. november 6-án) és tényleg így van! Két dolgon lepődtem meg: az egyik, hogy ennyire erős a torzítás. A másik meg az, hogy ezt magamtól nem vettem észre.

A női data scientist-ek láthatósága gyakorlatilag nulla a Midjourney-n, pedig egyértelmű, hogy ennél arányaiban sokkal-sokkal több nő dolgozik a szakmában! (És sokkal több a szemüveg nélküli data scientist is!)
Mi a probléma ezzel a jelenséggel?
Hát, elég sok minden — a teljesség igénye nélkül:
- Ha nőként csak férfiakat látsz data scientist-ként, elbizonytalanodsz, hogy tényleg neked való-e ez a szakma — még akkor is, ha amúgy baromi tehetséges lennél benne.
- Ha cégként data science-es pozíciókat (vagy képzéseket) hirdetsz olyan képekkel, amin csak férfiak vannak, potenciálisan elveszíted a célpiacodnak egy jelentős részét.
- Ha ebben a kis szegmensben ennyire erősen torzítanak az AI modellek, akkor mennyi más probléma lehet még a motorháztető alatt?
- …
Data Science Podcast Vásárhelyi Orsolyával
Vasarhelyi Orsolya adattudósként pontosan ezt a témát (AI és diverzizás) kutatja hosszú évek óta, úgyhogy azt gondolom, hogy egy nagyon egyedi látásmódot és egy mély megértést képvisel a kérdéskörben.
A lent linkelt data science interjúban az alábbi témákban kérdeztem:
- Miért torzítanak az AI képgenerátorok (és a szöveggenerátorok)?
- Az adattal van a baj? A modellel van a baj?
- Megoldható-e egyáltalán a probléma?
- Miért probléma, ha tovább erősödnek a nemi (és egyéb) sztereotípiák?
- Miért probléma ez az adott alulreprezentált csoportnak?
- Hogyan veszíthet ezzel rengeteg pénzt egy hétköznapi, kapitalista alapokon működő vállalkozás?
- Milyen statisztikai torzítások (bias-ok) rondítanak bele a képbe?
Itt a link a Spotify beszélgetéshez, de persze elérhető minden podcast lejátszó app-ban:
Data Science Képzés ajánló
Így a végére pedig hadd ajánljam a 3 hónapos data science képzésemet: a Junior Data Scientist Akadémiát! Ez a kurzus a Data36 legátfogóbb, 3 hónapon át tartó képzése. Teljesen online, főállású munka mellett vagy éppen akár GYES alatt is végezhető — és segít eljutni a nulláról a junior data scientist szintig. Részletek a fenti linken, vagy itt.
Mester Tomi