Distance Measures

2023. 11. 25. 19:51빅데이터

728x90

 jaccard distance

: 1- jaccard similarity

 

Euclidean Distance

L2 norm

  • 유클리드 거리: 대각선으로도 이동가능한 최단거리
    (피타고라스 공식 사용)

L1 norm

  • 맨해튼 거리: 대각선으로 이동불가한 최단거리

 

 

Non-Euclidean Distance

Edit Distance

: 한 문자를 다른 문자로 변형하는데 삽입하거나 삭제해야 하는 문자의 개수

 

d(x, y) = |x| + |y| - 2|LCS(x, y)|

* LCS: 두 문자가 공통으로 가지는 가장 긴  sub문자열

 

예) x=abcde, y=bcduve

x를 y로 바꾸려면 a를 삭제하고, d와 e사이에 u, v를 삽입해야 함

-> Edit distance=3

이걸 식으로 계산해 보면, LCS(x, y)=bcde=4

-> d(x, y) = |x| + |y| - 2|LCS(x, y)|

               = 5 + 6 - 2*4

               = 3

 

만약 x=ab, y=ba라면 

LCS를 a로 봐도 되고, b로 봐도 된다.

728x90

'빅데이터' 카테고리의 다른 글

추천시스템 - ALS (colab에서 과제)  (1) 2023.11.29
Clustering  (0) 2023.11.25
Finding Similar Items  (0) 2023.10.19
spark 함수  (0) 2023.10.06
2. Frequent Itemset Mining & Association Rules  (0) 2023.10.05