Normalizacija se uporablja za odpravo odvečnih podatkov in zagotavlja, da se ustvarijo gruče dobre kakovosti, ki lahko izboljšajo učinkovitost algoritmov združevanja v grozde. Tako postane bistven korak pred združevanjem v skupine kot Evklidska razdalja je zelo občutljiv na spremembe v razlikah[3].
Ali moramo normalizirati podatke za združevanje vrednosti K?
Tako kot pri k-NN metodi je treba lastnosti, uporabljene za združevanje v skupine, izmeriti v primerljivih enotah. V tem primeru enote niso problem, saj je vseh 6 značilnosti izraženih na 5-stopenjski lestvici. Normalizacija ali standardizacija ni potrebna.
Kako pripravite podatke pred združevanjem v skupine?
Priprava podatkov
Za izvedbo analize gruče v R je treba na splošno podatke pripraviti na naslednji način: Vrstice so opazovanja (posamezniki), stolpci pa spremenljivke. Vsako manjkajočo vrednost v podatkih je treba odstraniti ali oceniti. Podatki morajo biti standardizirani (tj. povečani), da so spremenljivke primerljive.
Ali je treba podatke prilagoditi za združevanje v skupine?
Pri združevanju v skupine izračunate podobnost med dvema primeroma tako, da združite vse podatke o značilnostih za te primere v številsko vrednost. Združevanje podatkov o značilnostih zahteva, da imajo podatki enako merilo.
Zakaj je pomembno normalizirati funkcije pred združevanjem v skupine?
Standardizacija je pomemben korak podatkovpredprocesiranje.
Kot je pojasnjeno v tem prispevku, k-srednja minimizira funkcijo napake z uporabo Newtonovega algoritma, to je optimizacijskega algoritma, ki temelji na gradientu. Normalizacija podatkov izboljša konvergenco takšnih algoritmov.