Diverzitás vs. Mesterséges Intelligencia

Észrevetted, hogy ha beírod a MidJourney-nek, hogy „data scientist”, akkor kb 20-ból 19-szer (bár igazából 20-ból 20-szor) egy szemüveges férfit képzel el és fest meg? Megmondom őszintén — szemüveges férfiként — ez elsőre nekem egyáltalán nem szúrt szemet.

Vasarhelyi Orsolya, PhD hívta fel rá a figyelmemet… Pontosabban egy előadásában hallottam a jelenségről. Egyből leteszteltem a dolgot (2023. november 6-án) és tényleg így van! Két dolgon lepődtem meg: az egyik, hogy ennyire erős a torzítás. A másik meg az, hogy ezt magamtól nem vettem észre.

A női data scientist-ek láthatósága gyakorlatilag nulla a Midjourney-n, pedig egyértelmű, hogy ennél arányaiban sokkal-sokkal több nő dolgozik a szakmában! (És sokkal több a szemüveg nélküli data scientist is!)

Mi a probléma ezzel a jelenséggel?

Hát, elég sok minden — a teljesség igénye nélkül:

  • Ha nőként csak férfiakat látsz data scientist-ként, elbizonytalanodsz, hogy tényleg neked való-e ez a szakma — még akkor is, ha amúgy baromi tehetséges lennél benne.
  • Ha cégként data science-es pozíciókat (vagy képzéseket) hirdetsz olyan képekkel, amin csak férfiak vannak, potenciálisan elveszíted a célpiacodnak egy jelentős részét.
  • Ha ebben a kis szegmensben ennyire erősen torzítanak az AI modellek, akkor mennyi más probléma lehet még a motorháztető alatt?

Data Science Podcast Vásárhelyi Orsolyával

Vasarhelyi Orsolya adattudósként pontosan ezt a témát (AI és diverzizás) kutatja hosszú évek óta, úgyhogy azt gondolom, hogy egy nagyon egyedi látásmódot és egy mély megértést képvisel a kérdéskörben.

A lent linkelt data science interjúban az alábbi témákban kérdeztem:

  • Miért torzítanak az AI képgenerátorok (és a szöveggenerátorok)?
  • Az adattal van a baj? A modellel van a baj?
  • Megoldható-e egyáltalán a probléma?
  • Miért probléma, ha tovább erősödnek a nemi (és egyéb) sztereotípiák?
  • Miért probléma ez az adott alulreprezentált csoportnak?
  • Hogyan veszíthet ezzel rengeteg pénzt egy hétköznapi, kapitalista alapokon működő vállalkozás?
  • Milyen statisztikai torzítások (bias-ok) rondítanak bele a képbe?

Itt a link a Spotify beszélgetéshez, de persze elérhető minden podcast lejátszó app-ban:

Data Science Képzés ajánló

Így a végére pedig hadd ajánljam a 3 hónapos data science képzésemet: a Junior Data Scientist Akadémiát! Ez a kurzus a Data36 legátfogóbb, 3 hónapon át tartó képzése. Teljesen online, főállású munka mellett vagy éppen akár GYES alatt is végezhető — és segít eljutni a nulláról a junior data scientist szintig. Részletek a fenti linken, vagy itt.

Mester Tomi