在這個系列的文章裡,我們將使用 Apache Spark、XGBoost、Elasticsearch 和 MySQL 等工具來搭建一個推薦系統的 Machine Learning Pipeline。推薦系統的組成可以粗略地分成 Candidate Generation 和 Ranking 兩個部分,前者是針對用戶產生候選物品集,常用的方法有 Collaborative Filtering、Content-based、標籤配對、熱門排行或人工精選等;後者則是對這些候選物品排序,以 Top N 的方式呈現最終的推薦結果,常用的方法有 Logistic Regression。
在本篇文章中,我們將以 Candidate Generation 階段常用的方法之一:Collaborative Filtering 協同過濾演算法為例,利用 Apache Spark 的 ALS (Alternating Least Squares) 模型建立一個 GitHub repositories 的推薦系統,以用戶對 repo 的打星紀錄作為訓練數據,推薦出用戶可能會感興趣的其他 repo 作為候選物品集。
完整的程式碼可以在 https://github.com/vinta/albedo 找到。
系列文章:
- Build a recommender system with Spark: Implicit ALS
- Build a recommender system with Spark: Content-based and Elasticsearch
- Build a recommender system with Spark: Logistic Regression
- Feature Engineering 特徵工程中常見的方法
- Spark ML cookbook (Scala)
- Spark SQL cookbook (Scala)
- 不定期更新中
Submit the Application
因為需要使用 JDBC 讀取 MySQL 資料庫,必須安裝 MySQL driver,可以透過 --packages "mysql:mysql-connector-java:5.1.41"
參數在 cluster 的每一台機器上安裝需要的 Java packages。
$ spark-submit \
--packages "com.github.fommil.netlib:all:1.1.2,mysql:mysql-connector-java:5.1.41" \
--master spark://YOUR_SPARK_MASTER:7077 \
--py-files deps.zip \
train_als.py -u vinta
ref:
https://spark.apache.org/docs/latest/submitting-applications.html
Load Data
讀取來自 MySQL 資料庫的數據。你可以使用 predicates
參數來指定 WHERE
條件,雖然嚴格來說這個參數是用來控制 partition 數量的,一個條件就是一個 partition。
假設 app_repostarring
的欄位如下:
CREATE TABLE `app_repostarring` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`from_user_id` int(11) NOT NULL,
`from_username` varchar(39) NOT NULL,
`repo_owner_id` int(11) NOT NULL,
`repo_owner_username` varchar(39) NOT NULL,
`repo_owner_type` varchar(16) NOT NULL,
`repo_id` int(11) NOT NULL,
`repo_name` varchar(100) NOT NULL,
`repo_full_name` varchar(140) NOT NULL,
`repo_description` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci DEFAULT NULL,
`repo_language` varchar(32) NOT NULL,
`repo_created_at` datetime(6) NOT NULL,
`repo_updated_at` datetime(6) NOT NULL,
`starred_at` datetime(6) NOT NULL,
`stargazers_count` int(11) NOT NULL,
`forks_count` int(11) NOT NULL,
PRIMARY KEY (`id`),
UNIQUE KEY `from_user_id_repo_id` (`full_name`, `repo_id`)
);
def loadRawData():
url = 'jdbc:mysql://127.0.0.1:3306/albedo?user=root&password=123&verifyServerCertificate=false&useSSL=false'
properties = {'driver': 'com.mysql.jdbc.Driver'}
rawDF = spark.read.jdbc(url, table='app_repostarring', properties=properties)
return rawDF
rawDF = loadRawData()
ref:
https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=jdbc#pyspark.sql.DataFrameReader.jdbc
http://www.gatorsmile.io/numpartitionsinjdbc/
Preprocess Data
Format Data
把 raw data 整理成 user,item,rating,starred_at
這樣的格式。starred_at
只有評價 model 時有用來排序,訓練 model 時並沒有用到,因為 Spark 的 ALS 沒辦法輕易地整合 side information。
from pyspark.ml import Transformer
class RatingBuilder(Transformer):
def _transform(self, rawDF):
ratingDF = rawDF \
.selectExpr('from_user_id AS user', 'repo_id AS item', '1 AS rating', 'starred_at') \
.orderBy('user', F.col('starred_at').desc())
return ratingDF
ratingBuilder = RatingBuilder()
ratingDF = ratingBuilder.transform(rawDF)
ratingDF.cache()
ref:
http://blog.ethanrosenthal.com/2016/11/07/implicit-mf-part-2/
Inspect Data
import pyspark.sql.functions as F
ratingDF.rdd.getNumPartitions()
# 200
ratingDF.agg(F.count('rating'), F.countDistinct('user'), F.countDistinct('item')).show()
# +-------------+--------------------+--------------------+
# |count(rating)|count(DISTINCT user)|count(DISTINCT item)|
# +-------------+--------------------+--------------------+
# | 3121629| 10483| 551216|
# +-------------+--------------------+--------------------+
stargazersCountDF = ratingDF \
.groupBy('item') \
.agg(F.count('user').alias('stargazers_count')) \
.orderBy('stargazers_count', ascending=False)
stargazersCountDF.show(10)
# +--------+----------------+
# | item|stargazers_count|
# +--------+----------------+
# | 2126244| 2211|
# |10270250| 1683|
# | 943149| 1605|
# | 291137| 1567|
# |13491895| 1526|
# | 9384267| 1480|
# | 3544424| 1468|
# | 7691631| 1441|
# |29028775| 1427|
# | 1334369| 1399|
# +--------+----------------+
starredCountDF = ratingDF \
.groupBy('user') \
.agg(F.count('item').alias('starred_count')) \
.orderBy('starred_count', ascending=False)
starredCountDF.show(10)
# +-------+-------------+
# | user|starred_count|
# +-------+-------------+
# |3947125| 8947|
# |5527642| 7978|
# | 446613| 7860|
# | 627410| 7800|
# | 13998| 6334|
# |2467194| 6327|
# | 63402| 6034|
# |2005841| 6024|
# |5073946| 5980|
# | 2296| 5862|
# +-------+-------------+
Clean Data
你可以過濾掉那些太少 user 打星的 item 和打星了太少 item 的 user,提昇矩陣的稠密度。這個現象也正好是 Cold Start 的問題,你就是沒有足夠多的關於這些 item 和 user 的數據(可以考慮使用 content-based 的推薦方式)。除此之外,如果你的推薦系統所推薦的 item 只有非常少人打星,即便你完美地挖掘了長尾效應,這樣的推薦結果給用戶的「第一印象」可能也不會太好(這可能決定了他要不要繼續使用這個系統或是他要不要真的去嘗試那個你推薦給他的東西)。
你也可以選擇要不要過濾掉那些超多人打星的 item 和打星了超多 item 的 user。如果某些 item 有超過八、九成的 user 都打星了,對於這麼熱門的 item,可能也沒有推薦的必要了,因為其他 user 早晚也會自己發現的;如果有少數的 user 幾乎打星了一半以上的 item,這些 user 可能是屬於某種 web crawler 的用途或是這些 user 就是那種看到什麼就打星什麼的人,無論是哪一種,他們可能都不是你想要 modeling 的對象,可以考慮從 dataset 中拿掉。
實務上,如果你有關於 user 或 item 的黑名單,例如一些 SPAM 帳號或 NSFW 的內容等,也可以在這個步驟把它們過濾掉。
from pyspark import keyword_only
from pyspark.ml import Transformer
from pyspark.ml.param.shared import Param
import pyspark.sql.functions as F
class DataCleaner(Transformer):
@keyword_only
def __init__(self, minItemStargazersCount=None, maxItemStargazersCount=None, minUserStarredCount=None, maxUserStarredCount=None):
super(DataCleaner, self).__init__()
self.minItemStargazersCount = Param(self, 'minItemStargazersCount', '移除 stargazer 數低於這個數字的 item')
self.maxItemStargazersCount = Param(self, 'maxItemStargazersCount', '移除 stargazer 數超過這個數字的 item')
self.minUserStarredCount = Param(self, 'minUserStarredCount', '移除 starred repo 數低於這個數字的 user')
self.maxUserStarredCount = Param(self, 'maxUserStarredCount', '移除 starred repo 數超過這個數字的 user')
self._setDefault(minItemStargazersCount=1, maxItemStargazersCount=50000, minUserStarredCount=1, maxUserStarredCount=50000)
kwargs = self.__init__._input_kwargs
self.setParams(**kwargs)
@keyword_only
def setParams(self, minItemStargazersCount=None, maxItemStargazersCount=None, minUserStarredCount=None, maxUserStarredCount=None):
kwargs = self.setParams._input_kwargs
return self._set(**kwargs)
def setMinItemStargazersCount(self, value):
self._paramMap[self.minItemStargazersCount] = value
return self
def getMinItemStargazersCount(self):
return self.getOrDefault(self.minItemStargazersCount)
def setMaxItemStargazersCount(self, value):
self._paramMap[self.maxItemStargazersCount] = value
return self
def getMaxItemStargazersCount(self):
return self.getOrDefault(self.maxItemStargazersCount)
def setMinUserStarredCount(self, value):
self._paramMap[self.minUserStarredCount] = value
return self
def getMinUserStarredCount(self):
return self.getOrDefault(self.minUserStarredCount)
def setMaxUserStarredCount(self, value):
self._paramMap[self.maxUserStarredCount] = value
return self
def getMaxUserStarredCount(self):
return self.getOrDefault(self.maxUserStarredCount)
def _transform(self, ratingDF):
minItemStargazersCount = self.getMinItemStargazersCount()
maxItemStargazersCount = self.getMaxItemStargazersCount()
minUserStarredCount = self.getMinUserStarredCount()
maxUserStarredCount = self.getMaxUserStarredCount()
toKeepItemsDF = ratingDF \
.groupBy('item') \
.agg(F.count('user').alias('stargazers_count')) \
.where('stargazers_count >= {0} AND stargazers_count <= {1}'.format(minItemStargazersCount, maxItemStargazersCount)) \
.orderBy('stargazers_count', ascending=False) \
.select('item', 'stargazers_count')
temp1DF = ratingDF.join(toKeepItemsDF, 'item', 'inner')
toKeepUsersDF = temp1DF \
.groupBy('user') \
.agg(F.count('item').alias('starred_count')) \
.where('starred_count >= {0} AND starred_count <= {1}'.format(minUserStarredCount, maxUserStarredCount)) \
.orderBy('starred_count', ascending=False) \
.select('user', 'starred_count')
temp2DF = temp1DF.join(toKeepUsersDF, 'user', 'inner')
cleanDF = temp2DF.select('user', 'item', 'rating', 'starred_at')
return cleanDF
dataCleaner = DataCleaner(
minItemStargazersCount=2,
maxItemStargazersCount=4000,
minUserStarredCount=2,
maxUserStarredCount=5000
)
cleanDF = dataCleaner.transform(ratingDF)
cleanDF.agg(F.count('rating'), F.countDistinct('user'), F.countDistinct('item')).show()
# +-------------+--------------------+--------------------+
# |count(rating)|count(DISTINCT user)|count(DISTINCT item)|
# +-------------+--------------------+--------------------+
# | 2761118| 10472| 245626|
# +-------------+--------------------+--------------------+
Generate Negative Samples
對 implicit feedback 的 ALS 來說,手動加入負樣本(Rui = 0 的樣本)是沒有意義的,因為 missing value / non-observed value 對該演算法來說本來就是 0,表示用戶確實沒有對該物品做出行為,也就是 Pui = 0 沒有偏好,所以 Cui = 1 + alpha x 0 置信度也會比其他正樣本低。不過因為 Spark ML 的 ALS 只會計算 Rui > 0 的項目,所以即便你手動加入了 Rui = 0 或 Rui = -1 的負樣本,對整個模型其實沒有影響。
雖然沒有負樣本你就不能算 area under ROC curve 或是 area under Precision-Recall curve 等 binary classifier 用的指標,不過你可以改用 Learning to rank 的評估方式,例如 NDCG 或 Mean Average Precision 等。但是 ALS 的 loss function 也沒辦法直接優化 NDCG 這樣的指標就是了。
ref:
https://vinta.ws/code/generate-negative-samples-for-recommender-system.html
Split Data
因為 Matrix Factorization 需要考慮每個 user-item pair,如果你餵給 model 它沒見過的資料,它就沒辦法進行推薦(冷啟動問題)。只要 user 或 item 其中之一不存在於 dataset 裡,ALS model 所輸出的 prediction 值就會是 NaN
。所以應該盡量保持每個 user 和 item 都出現在 training set 和 testing set 裡,例如隨機挑出每個 user 的任意 n 個或 n 比例的評分作為 test set,剩下的評分當作 training set(俗稱 leave-n-out)。如果使用 Machine Learning 中常見的 holdout 方式,隨機地把所有 data point 分散到 training set 和 test set(例如 df.randomSplit([0.7, 0.3])
),會有很高的機率造成部分 user 或 item 只出現在其中一組 dataset 裡。
ref:
https://jessesw.com/Rec-System/
http://blog.ethanrosenthal.com/2016/10/19/implicit-mf-part-1/
從 LibRec 的文件上也可以發現還有許多拆分數據的方式,例如:
- 基于 Ratio 的分类方法为通过给定的比例来将数据分为两部分。这个分类过程可以在所有数据中进行随机分类,也可以在用户或者物品维度上进行分类。当有时间的特征时,可以根据时间顺序留出最后一定比例的数据来进行测试。
- LooCV 的分割方法为 leave-one-user/item/rating-out,也就是随机选取每个 user 的任意一个 item 或者每个 item 的任意一个 user 作为测试数据,余下的数据来作为训练数据。在实现中实现了基于 User 和基于 Item 的多种分类方式。
- GivenN 分割方法是指为每个用户留出指定数目 N 的数据来作为测试用例,余下的样本作为训练数据。
- KCV 即 K 折交叉验证。将数据分割为 K 份,在每次执行时选择其中一份作为测试数据,余下的数据作为训练数据,共执行 K 次。综合 K 次的训练结果来对推荐算法的性能进行评估。
ref:
https://www.librec.net/dokuwiki/doku.php?id=DataModel_zh#splitter
這裡我們用 sampleBy()
簡單地寫了一個根據 user 來隨機劃分 item 到 training set 和 test set 的方法。
def randomSplitByUser(df, weights, seed=None):
trainingRation = weights[0]
fractions = {row['user']: trainingRation for row in df.select('user').distinct().collect()}
training = df.sampleBy('user', fractions, seed)
testRDD = df.rdd.subtract(training.rdd)
test = spark.createDataFrame(testRDD, df.schema)
return training, test
training, test = randomSplitByUser(ratingDF, weights=[0.7, 0.3])
ref:
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.sampleBy
Train the Model
from pyspark.ml.recommendation import ALS
als = ALS(implicitPrefs=True, seed=42) \
.setRank(50) \
.setMaxIter(22) \
.setRegParam(0.5) \
.setAlpha(40)
alsModel = als.fit(training)
# 這些就是訓練出來的 user 和 item 的 Latent Factors
alsModel.userFactors.show()
alsModel.itemFactors.show()
ref:
https://spark.apache.org/docs/latest/ml-collaborative-filtering.html
https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.recommendation.ALS
Predict Preferences
from pyspark.ml import Transformer
predictedDF = alsModel.transform(testing)
class PredictionProcessor(Transformer):
def _transform(self, predictedDF):
nonNullDF = predictedDF.dropna(subset=['prediction', ])
predictionDF = nonNullDF.withColumn('prediction', nonNullDF['prediction'].cast('double'))
return predictionDF
# 刪掉那些 NaN 的數據
predictionProcessor = PredictionProcessor()
predictionDF = predictionProcessor.transform(predictedDF)
Evaluate the Model
因為 Spark ML 沒有提供給 DataFrame 用的 ranking evaluator,我們只好自己寫一個,但是內部還是使用 Spark MLlib 的 RankingMetrics
。不過這個只是 offline 的評估方式而已,等到要實際上線的時候可能還需要做 A/B testing。
from pyspark import keyword_only
from pyspark.ml.evaluation import Evaluator
from pyspark.ml.param.shared import Param
from pyspark.mllib.evaluation import RankingMetrics
from pyspark.sql import Window
from pyspark.sql.functions import col
from pyspark.sql.functions import expr
import pyspark.sql.functions as F
class RankingEvaluator(Evaluator):
@keyword_only
def __init__(self, k=None):
super(RankingEvaluator, self).__init__()
self.k = Param(self, 'k', 'Top K')
self._setDefault(k=30)
kwargs = self.__init__._input_kwargs
self.setParams(**kwargs)
@keyword_only
def setParams(self, k=None):
kwargs = self.setParams._input_kwargs
return self._set(**kwargs)
def isLargerBetter(self):
return True
def setK(self, value):
self._paramMap[self.k] = value
return self
def getK(self):
return self.getOrDefault(self.k)
def _evaluate(self, predictedDF):
k = self.getK()
predictedDF.show()
windowSpec = Window.partitionBy('user').orderBy(col('prediction').desc())
perUserPredictedItemsDF = predictedDF \
.select('user', 'item', 'prediction', F.rank().over(windowSpec).alias('rank')) \
.where('rank <= {0}'.format(k)) \
.groupBy('user') \
.agg(expr('collect_list(item) as items'))
windowSpec = Window.partitionBy('user').orderBy(col('starred_at').desc())
perUserActualItemsDF = predictedDF \
.select('user', 'item', 'starred_at', F.rank().over(windowSpec).alias('rank')) \
.where('rank <= {0}'.format(k)) \
.groupBy('user') \
.agg(expr('collect_list(item) as items'))
perUserItemsRDD = perUserPredictedItemsDF.join(F.broadcast(perUserActualItemsDF), 'user', 'inner') \
.rdd \
.map(lambda row: (row[1], row[2]))
if perUserItemsRDD.isEmpty():
return 0.0
rankingMetrics = RankingMetrics(perUserItemsRDD)
metric = rankingMetrics.ndcgAt(k)
return metric
k = 30
rankingEvaluator = RankingEvaluator(k=k)
ndcg = rankingEvaluator.evaluate(predictionDF)
print('NDCG', ndcg)
ref:
https://spark.apache.org/docs/latest/mllib-evaluation-metrics.html
Recommend Items
實際感受一下推薦系統的效果如何。這裡是直接把結果 print 出來,而沒有把推薦結果儲存到資料庫。不過通常不會直接就把推薦系統輸出的東西展示給用戶,會先經過一些過濾、排序和產生推薦理由等等的步驟,或是加入一些人為的規則,比如說強制插入廣告、最近主打的商品或是過濾掉那些很多人點擊但是其實質量並不怎麼樣的東西。當然也有可能會把這個推薦系統的輸出作為其他機器學習 model 的輸入。
ref:
https://www.zhihu.com/question/28247353
def recommendItems(rawDF, alsModel, username, topN=30, excludeKnownItems=False):
userID = rawDF \
.where('from_username = "{0}"'.format(username)) \
.select('from_user_id') \
.take(1)[0]['from_user_id']
userItemsDF = alsModel \
.itemFactors. \
selectExpr('{0} AS user'.format(userID), 'id AS item')
if excludeKnownItems:
userKnownItemsDF = rawDF \
.where('from_user_id = {0}'.format(userID)) \
.selectExpr('repo_id AS item')
userItemsDF = userItemsDF.join(userKnownItemsDF, 'item', 'left_anti')
userPredictedDF = alsModel \
.transform(userItemsDF) \
.select('item', 'prediction') \
.orderBy('prediction', ascending=False) \
.limit(topN)
repoDF = rawDF \
.groupBy('repo_id', 'repo_full_name', 'repo_language') \
.agg(F.max('stargazers_count').alias('stargazers_count'))
recommendedItemsDF = userPredictedDF \
.join(repoDF, userPredictedDF['item'] == repoDF['repo_id'], 'inner') \
.select('prediction', 'repo_full_name', 'repo_language', 'stargazers_count') \
.orderBy('prediction', ascending=False)
return recommendedItemsDF
k = 30
username = 'vinta'
recommendedItemsDF = recommendItems(rawDF, alsModel, username, topN=k, excludeKnownItems=False)
for item in recommendedItemsDF.collect():
repoName = item['repo_full_name']
repoUrl = 'https://github.com/{0}'.format(repoName)
print(repoUrl, item['prediction'], item['repo_language'], item['stargazers_count'])
ref:
https://github.com/vinta/albedo/blob/master/src/main/python/train_als.ipynb
Cross-validate Models
使用 Spark ML 的 pipeline
來做 cross-validation,選出最適合的 hyperparameters 組合。
rank
: The number of latent factors in the model, or equivalently, the number of columns k in the user-feature and product-feature matrices.regParam
: A standard overfitting parameter, also usually called lambda. Higher values resist overfitting, but values that are too high hurt the factorization’s accuracy.alpha
: Controls the relative weight of observed versus unobserved user-product interactions in the factorization.maxIter
: The number of iterations that the factorization runs. More iterations take more time but may produce a better factorization.
dataCleaner = DataCleaner()
als = ALS(implicitPrefs=True, seed=42)
predictionProcessor = PredictionProcessor()
pipeline = Pipeline(stages=[
dataCleaner,
als,
predictionProcessor,
])
paramGrid = ParamGridBuilder() \
.addGrid(dataCleaner.minItemStargazersCount, [1, 10, 100]) \
.addGrid(dataCleaner.maxItemStargazersCount, [4000, ]) \
.addGrid(dataCleaner.minUserStarredCount, [1, 10, 100]) \
.addGrid(dataCleaner.maxUserStarredCount, [1000, 4000, ]) \
.addGrid(als.rank, [50, 100]) \
.addGrid(als.regParam, [0.01, 0.1, 0.5]) \
.addGrid(als.alpha, [0.01, 0.89, 1, 40, ]) \
.addGrid(als.maxIter, [22, ]) \
.build()
rankingEvaluator = RankingEvaluator(k=30)
cv = CrossValidator(estimator=pipeline,
estimatorParamMaps=paramGrid,
evaluator=rankingEvaluator,
numFolds=2)
cvModel = cv.fit(ratingDF)
def printCrossValidationParameters(cvModel):
metric_params_pairs = list(zip(cvModel.avgMetrics, cvModel.getEstimatorParamMaps()))
metric_params_pairs.sort(key=lambda x: x[0], reverse=True)
for pair in metric_params_pairs:
metric, params = pair
print('metric', metric)
for k, v in params.items():
print(k.name, v)
print('')
printCrossValidationParameters(cvModel)