Ali naj normaliziramo podatke pred združevanjem v skupine?

Ali naj normaliziramo podatke pred združevanjem v skupine?
Ali naj normaliziramo podatke pred združevanjem v skupine?
Anonim

Normalizacija se uporablja za odpravo odvečnih podatkov in zagotavlja, da se ustvarijo gruče dobre kakovosti, ki lahko izboljšajo učinkovitost algoritmov združevanja v grozde. Tako postane bistven korak pred združevanjem v skupine kot Evklidska razdalja je zelo občutljiv na spremembe v razlikah[3].

Ali moramo normalizirati podatke za združevanje vrednosti K?

Tako kot pri k-NN metodi je treba lastnosti, uporabljene za združevanje v skupine, izmeriti v primerljivih enotah. V tem primeru enote niso problem, saj je vseh 6 značilnosti izraženih na 5-stopenjski lestvici. Normalizacija ali standardizacija ni potrebna.

Kako pripravite podatke pred združevanjem v skupine?

Priprava podatkov

Za izvedbo analize gruče v R je treba na splošno podatke pripraviti na naslednji način: Vrstice so opazovanja (posamezniki), stolpci pa spremenljivke. Vsako manjkajočo vrednost v podatkih je treba odstraniti ali oceniti. Podatki morajo biti standardizirani (tj. povečani), da so spremenljivke primerljive.

Ali je treba podatke prilagoditi za združevanje v skupine?

Pri združevanju v skupine izračunate podobnost med dvema primeroma tako, da združite vse podatke o značilnostih za te primere v številsko vrednost. Združevanje podatkov o značilnostih zahteva, da imajo podatki enako merilo.

Zakaj je pomembno normalizirati funkcije pred združevanjem v skupine?

Standardizacija je pomemben korak podatkovpredprocesiranje.

Kot je pojasnjeno v tem prispevku, k-srednja minimizira funkcijo napake z uporabo Newtonovega algoritma, to je optimizacijskega algoritma, ki temelji na gradientu. Normalizacija podatkov izboljša konvergenco takšnih algoritmov.

Priporočena: