본문 바로가기

분류 전체보기101

[Recommender System / Paper review] #04 Amazon.com recommendations: Item-to-item collaborative filtering 논문 링크 (8143회 인용)Summaryuser based CF, Clustering method의 한계를 극복하고자 item-based CF를 개발하였다.아마존과 같이 수많은 유저와 아이템을 가지고 있는 온라인 상점에게 scalability 문제는 중요하고 item-based CF을 통해 이 문제를 풀 수 있다.유사한 유저를 먼저 찾는 것이 아니라, 유사한 아이템을 먼저 찾는다.Motivation전통 cf는 다음의 한계를 가진다.고객의 수와 아이템의 수를 각각 $M,N$이라고 할 때, 최악의 경우 시간 복잡도는 $O(MN)$이다. 물론, 보통의 경우에 $O(M+N)$의 복잡도를 가지지만, 여전히 computationally expensive하다.이렇게 시간이 오래 걸리는 문제를 $M,N$ 중 하나의 .. 2023. 3. 30.
[Recommender System / Paper review] #03 GroupLens: an open architecture for collaborative filtering of netnews 논문링크 (8211회 인용) Summary tapestry(요약 글 참조)가 소개된 후에 나온 논문으로, 비슷하게 적절한 뉴스 기사를 유저에게 추천해주기 위한 grouplens라는 시스템을 소개한다. grouplens도 마찬가지로 collaborative filtering을 이용해서 유저가 흥미있어할 법한 기사를 추천해준다. Motivation 기존의 시스템인 netnews는 signal to noise ratio가 낮다. 뉴스를 쓴 사람들은 읽는 사람의 반응을 알아채기가 어렵다. 개인의 취향을 고려하지 않기 때문에 많은 뉴스 가운데 본인이 원하는 뉴스를 고르기가 힘들다. tapestry와 비슷하지만 다른 점이 있다. tapestry는 monolithic system이지만 grouplens는 여러 사이.. 2023. 3. 30.
[Recommender System / Paper review] #02 Item-based collaborative filtering recommendation algorithms 논문 링크 (11700회 인용) Item-based collaborative filtering recommendation algorithms | Proceedings of the 10th international conference on World Wide We Overall Acceptance Rate 1,899 of 8,196 submissions, 23% dl.acm.org Summary 기존의 방식이 비슷한 유저를 먼저 탐색하고자 한다면, item-based CF는 아이템간의 관계를 먼저 탐색함으로써 bottleneck을 해결하고자 한다. 아이템간의 관계를 유사도 계산을 통해 파악하고, 이를 이용하여 target item에 대한 점수를 예측한다. 유사도 방법은 adjusted cosine simi.. 2023. 3. 30.
[Recommender System / Paper Review] #01 Using collaborative filtering to weave an information tapestry 논문 링크 (6052회 인용) Summary tapestry는 어느 연구센터에서 개발한 이메일 시스템으로, 많은 양의 이메일 가운데 사용자가 관심있어할만한 이메일만 골라주는 기능을 가지고 있다. 본인 또는 다른 사람이 이메일에 표현한 관심을 기록하여 이메일을 필터링하는데, 이를 collaborative filtering이라고 한다. tapestry는 여타 다른 이메일 필터링 시스템과는 다른데, 이메일뿐만 아니라 뉴스기사 등 다른 것들도 필터링할 수 있는 툴이기 때문이다. Motivation 이메일의 사용이 증가하는 가운데 너무나 많은 양의 이메일 때문에 사용자가 압도당하는 경우가 많다. 관심있는 리스트만 구독한다고 하더라도, 그 리스트에서 발생하는 이메일 양도 엄청나다. 더 나은 방법은, 리스트 단위로 .. 2023. 3. 30.
[DL] Backpropagation 서울대학교 딥러닝 기초 강의를 듣고 정리하였다. 아래와 같은 fully connected neural network에서 backpropagation이 어떻게 진행되는지 수식을 통해 살펴보자. notation을 정리해보자. $a_l$: $l$번째 layer에서 linear 연산을 적용한 값을 activation function에 넣은 neuron 값 $a_l = f(z_l)$ $a_1 = [a_{11} \; a_{12} \; a_{13} \; a_{14}]^T$ $a_2 = [a_{21} \; a_{22} \; a_{23}]^T$ $z_l$: $l$번째 layer에서 linear 연산을 적용한 값 $z_{l+1} = W_l a_l + b_l$ $z_1 = [z_{11} \; z_{12} \; z_{13} .. 2023. 3. 20.
[ML / DL] Stochastic Gradient Descent 식 유도하기 서울대학교 딥러닝 기초 강의를 듣고 정리하였다. 회귀 문제든, 분류 문제든, stochastic gradient descent의 일반적인 식을 공통적으로 도출할 수 있다. 이번 포스팅에서는 이 식을 유도해보면서 어떤 공통점을 찾을 수 있는지 알아본다. 통계학을 전공하다보면, 수리통계학 과목을 필수적으로 수강해야하고 여기에서 나오는 단골손님이 exponential family이다. 확률분포 $p(y | x ; \theta)$의 exponential family 형태는 아래와 같다. \[ p(y ; \eta) = b(y) exp(\eta^T T(y) - a(\eta)) \] $\eta$: natural parameter $T(y)$: sufficient statistics for $p(y | x ; \the.. 2023. 3. 19.