在移动互联网时代, 我们会接收到很多由推荐系统推荐过来的信息。比如在逛淘宝、京东时,你会看到“猜你喜欢”这样的推荐商品; 刷今日头条、抖音时会首选看推荐的新闻、短视频,接收来自推荐系统的信息似乎已经成了一种习惯。实际上,在构建推荐系统的过程中会用到大量的数据挖掘算法。
首先,来说下数据挖掘中的聚类分析。
推荐系统里用得最多的协同过滤算法,实际上就是数据挖掘里的聚类算法。协同过滤的原理分为两种,一种是基于用户的协同过滤,就是找到与用户A兴趣相识的用户B,然后将用户B看过的物品推荐给用户A。从数据挖掘的角度来说,这就是在对用户进行聚类,将用户行为作为用户的特征,使用聚类算法进行聚类,找到属于同一类的用户A和B,这样就能将B用户看过的物品推荐给用户A。
另外一种是基于物品的协同过滤,就是计算物品之间的相识性。如果用户看过物品A,那么就将和物品A最相似的几个物品B、C等推荐给用户。从聚类的角度来说,本质还是一样的,用物品的特征数据进行聚类,找到同类的物品A、B、C等,就可以向看过物品A的用户推荐B、C等。所以说,完全可以从聚类分析角度来理解协同过滤。
其次,分类算法在推荐系统中的应用也很多。
从根本上来说说,推荐系统就是在预测一个物品用户会不会感兴趣。感兴趣或者不感兴趣,这实际上就是一个二分类问题。推荐系统使用的预测模型,就是数据挖掘中的分类模型。当然,推荐系统不会对用户把每一个物品都预测,首先会根据用户标签和内容标签,找回一个数量较小的内容集合,然后再使用预测模型进行预测。实际上再构建用户标签和内容标签时,也会用到分类或者聚类,对用户和内容的数量都是非常大的,不可能人工完成打标签的工作,都是形成分类模型或者聚类模型,实现自动打标签。
可以说,推荐系统就是数据挖掘理论的有效实践。随着大家对数据挖掘理解的加深,把数据挖掘的思想带入到各个业务场景中,数据挖掘会有更加广阔的应用前景。亿信华辰数据挖掘平台豌豆DM提供涵盖分类、回归、聚类、关联规则以及时间序列等五大类、十余个小类的核心数据挖掘算法,同时支持扩展数据挖掘算法,让用户能够快速找到与业务更为贴合的数据挖掘模型。有了豌豆DM,可以深入洞察企业数据规律,充分挖掘数据潜在价值。
(本内容属于网络转载,文中涉及图片等内容如有侵权,请联系编辑删除)