머신러닝,딥러닝/WLT

[추천 시스템 논문] SoReg : Social Regularization 논문 짧은 리뷰

mcdn 2023. 1. 31. 18:41
반응형

SoReg : Social Regularization 논문 짧은 리뷰

https://dennyzhou.github.io/papers/RSR.pdf

 

5.1. Model1: Average -based Regularization

첫 번째 모델인 Average based regularization은 유저가 친구들의 평균과 가까울거라는 가정에서출발합니다.  

위 식에서 유저 I 의 친구 목록은 F+로 표현할 수 있습니다. 친구 목록에서 친구의 유저 벡터를 하나씩 더하고 평균 낸 결과를 대상 유저 벡터와 비교해 구한 오차를 사용합니다.

 

하지만 현실 세계에서 유저가 꼭 친구들의 평균이라고 단정하기 어렵습니다. 취향이 유사한 친구도 있을 수 있지만 아예 다른 친구도 있기 때문입니다. 따라서 현실에 더 가깝게 모델링하려면 친구들마다 다른 가중치를 둘 필요가 있었습니다.

 

 

저자는 이를 위해 유저i와 친구 f 간의 유사도를 확인하는 Similarity function을 도입했습니다. similarity function 0에서 1 사이 값을 가지며, 클수록 두 유저가 유사하다는 뜻입니다. 따라서 유저들이 유사하면 값이 크게 반영됩니다.

 

 

5.2. Model2 : Individual-based Regularization

첫 번째 모델은 친구들의 평균을 구했었습니다. 하지만 이는 친구들 개개인의 다양한 선호를 반영하지 못 한다는 문제가 있습니다. 따라서 모델2는 친구들의 평균이 아니라 친구 개개인을 유저와 비교하는 패널티를 사용합니다. 여기서도 동일하게 similarity function으로 가중치를 다르게 주었습니다.

 

5.3. Similarity Function

유사도 함수는 유저와 친구가 얼마나 유사한지 계산해줍니다. SoReg에서 실험을 위해 두 개의 유사도 함수를 사용했습니다.

 

첫 번째는 VSS 유사도 함수입니다. VSS user i user f가 공통적으로 rating한 아이템을 활용해서 유사도를 구합니다. 여기서 item j는 유저 두명이 동일하게 평점을 내린 아이템 하나를 의미합니다.

 

 

하지만 VSS는 다른 유저가 다른 rating style을 가질 수 있다는 점을 고려하지 않습니다. PCC는 이와 같은 문제를 유저가 내린 평점의 평균을 이용해서 해결합니다.

 

6.3. Comparisons

SoReg 실험 결과 친구들의 평균을 이용한 모델1보다 친구 한 명 한 명 비교한 모델2가 대체로 성능이 좋았습니다.

그리고 두 개의 유사도 함수 중에서는 VSS보다 PCC가 더 좋았습니다. (MAE score가 작을 수록 좋은 모델임)

 

6.5. Impact of similarity functions

SoReg는 유사도 함수가 의미가 있는지 확인하기 위해 추가적인 실험을 진행했습니다.

유저와 친구들 유사도에 모두 다 같은 값을 주거나 랜덤으로 주기도 해보았지만
유사도 함수를 활용하는 모델들이 성능이 좋았습니다. (MAE score가 작을 수록 좋은 모델임)

따라서 PCC VSS 같은 유사도 함수가 효과가 있었다는 것을 알 수 있습니다.

 

7. Conclusion and future work

정리하면 SoRec PMF의 확장 모델로 social network graph라는 또 다른 데이터 행렬분해에 적용하는 새로운 방법을 소개했습니다. 그리고 SoReg는 소셜 네트워크를 latent factor로 만들기보다 정규화 식을 추가해 패널티를 주는 새로운 loss function을 제시했습니다.

 

이후 개선할 수 있는 점으로 논문은 세 가지를 소개합니다. 

첫번째로 SoReg 논문에서는 모든 유저 관계를 활용했지만, 효율적인 유저 클러스터링 메소드를 활용하면 적절한 그룹의 친구들을 도메인에 맞게 선정할 수 있을 것으로 봅니다. 

두번째로 논문은 전통적인 PCC와 VSS 함수를 similarity function을 사용했지만, 만약 유저의 클릭 활동이나 히스토리 등을 동원해서 유저를 표현할 수 있으면 더 적절하고 완전한 유사도 함수를 구현할 수 있을지도 모릅니다. 

세번째로 본 논문에서는 유저의 유사도를 신경쓰지만 아이템 간의 유사도는 신경쓰지 못하고 있습니다. 아이템 역시 Cosine method 등으로 유사도 연산을 해서 item regularization 에 사용할 수 있으면 성능이 더 올라갈 수도 있습니다.

반응형