Normalizacija je uporabna če imajo vaši podatki različne lestvice in algoritem, ki ga uporabljate, ne predvideva porazdelitve vaših podatkov, kot so k-najbližji sosedje in umetna nevronska omrežja. Standardizacija predpostavlja, da imajo vaši podatki Gaussovo porazdelitev (zvonova krivulja).
Kdaj naj normaliziramo podatke?
Podatke je treba normalizirati ali standardizirati, da se vse spremenljivke uskladijo med seboj. Na primer, če je ena spremenljivka 100-krat večja od druge (v povprečju), se bo vaš model morda bolje obnašal, če normalizirate/standardizirate obe spremenljivki tako, da sta približno enakovredni.
Kakšna je razlika med normalizacijo in standardizacijo?
Normalizacija običajno pomeni prerazporeditev vrednosti v obseg [0, 1]. Standardizacija običajno pomeni prerazporeditev podatkov tako, da imajo povprečje 0 in standardni odklon 1 (variance enote).
Kdaj in zakaj potrebujemo normalizacijo podatkov?
Preprosteje povedano, normalizacija zagotavlja, da so vsi vaši podatki videti in brani na enak način v vseh zapisih. Normalizacija bo standardizirala polja, vključno z imeni podjetij, kontaktnimi imeni, URL-ji, naslovnimi podatki (ulice, zvezne države in mesta), telefonskimi številkami in nazivi delovnih mest.
Kako izberete normalizacijo in standardizacijo?
V poslovnem svetu "normalizacija" običajno pomeni, da je obseg vrednosti"normalizirano od 0,0 do 1,0". "Standardizacija" običajno pomeni, da je obseg vrednosti "standardiziran" za merjenje, koliko standardnih odstopanj je vrednost od njene srednje vrednosti.