Kosinusna podobnost se običajno uporablja kot metrika za merjenje razdalje, kadar velikost vektorjev ni pomembna. To se zgodi na primer pri delu z besedilnimi podatki, ki jih predstavlja število besed.
Kdaj naj uporabim kosinus podobnost?
Kosinusna podobnost meri podobnost med dvema vektorjema notranjega produktnega prostora. Meri se s kosinusom kota med dvema vektorjema in določa, ali sta dva vektorja usmerjena v približno isto smer. Pogosto se uporablja za merjenje podobnosti dokumentov v analizi besedil.
Zakaj uporabiti kosinusno podobnost namesto evklidske razdalje?
Kosinusna podobnost je ugodna, ker tudi če sta dva podobna dokumenta zaradi velikosti daleč narazen za evklidsko razdaljo (npr. beseda 'cricket' se je pojavila 50-krat v enem dokumentu in 10-krat v drugem), bi lahko še vedno manjši kot med njima. Manjši kot, večja je podobnost.
Kakšna je razlika med kosinusno podobnostjo in evklidsko razdaljo?
V tem članku smo preučili formalne definicije evklidske razdalje in kosinusne podobnosti. Evklidska razdalja ustreza L2-normi razlike med vektorji. Kosinusna podobnost je sorazmerna s pik produktom dveh vektorjev in obratno sorazmerna z produktom njunih velikosti.
Kakšna je razlika med kosinusno podobnostjo in kosinusno razdaljo?
Običajno ljudje uporabljajo kosinusno podobnost kot metriko podobnosti med vektorji. Zdaj lahko razdaljo definiramo kot 1-cos_similarity. Intuicija za tem je, da če sta 2 vektorja popolnoma enaka, potem je podobnost 1 (kot=0) in je torej razdalja 0 (1-1=0).