让我们一起来谈谈物以类聚。在了解了内容和用户的基本特征后,我们将进一步讨论推荐算法如何匹配用户和内容。总结一下,这个过程做的是“物如桑树,人分群”。
image handler/62d 8864 f-d93c-492d-b982-a9c 78 Abd聋人/
有了一张物品的完美图片,我们就可以根据物品的内在属性计算出物品之间的相似度,从而推荐出与用户历史消费相似的新物品。以内容推荐为例,相似度计算中常用的因素包括作者层面的:相似度(基于订阅或偏好)和内容层面的相似度(如关键词、主题、类别、聚类、标签等)。).
image handler/75762 da8-9e F5-44 bb-98 B4-9df 6a 535 c1dc /
基于内容的推荐方法在音乐、电影和书籍的推荐场景中很常见。以图书推荐场景为例。豆瓣书上有三本书,分别有以下标签:
推荐系统、数据挖掘、计算机、算法、机器学习、互联网、数据分析、人工智能。
推荐系统,机器学习,数据挖掘,算法,计算机,互联网,计算机科学,
分析大数据,数据挖掘,计算机,互联网,大数据时代,互联网趋势,社会学,数据
从标签层面不难看出,标签集层面的相同标签较多,相似度较高。然后,当用户A选择《推荐系统实践》时,系统应该给他优先推荐《推荐系统),而非《大数据时代》。
image handler/8d 4f 6525-3a 97-4e 72-a562-607637220 a 78 '>
如果想进一步细化,可以使用TF-
IDF模式为不同的标签设置权重。基本思想是:的频率越高,标签区分度越低,反之亦然。比如“电脑”是高频的标签,那么这个标签的区分度就没有那么高,权重也低;而“推荐系统”是一个低频的标签,标签更有意义和差异化,权重更高。
image handler/d 68292d 5-CBA 0-40e 8-b577-9c 5410092713 '>
基于内容属性的推荐的优势在于,它只依赖于项目本身的特征,而不依赖于用户的行为,从而可以显示新的、晦涩难懂的项目。存在的问题是推荐的质量完全取决于特征构建的完备性,但特征构建本身是一个系统工程,存在一定的成本。在上面的例子中,如果标签词的粒度不够细,不足以完全描述内容(例如,每本书只有三个标签词),则难以计算置信度相似度,推荐效果不够好。
image handler/36996 f5a-5401-4d d5-b5e 5-fab 8e 3264d 00 /
另外,基于内容属性的推荐没有考虑用户对物品的态度,难以诠释和表达用户的品味和调性。比如市面上有很多关于内容分发的书,只从标签词很难分辨。为了在推荐中更好地吸引受众反馈因素,提出了基于用户行为的“协同过滤”概念。