当前位置: 首页 > news >正文

国内python 做的网站搜收录网

国内python 做的网站,搜收录网,视频app开发,物流百度推广怎么做网站文章目录 协同过滤算法的基本原理协同过滤算法的分类用户相似度计算UserCF && ItemCF应用场景 协同过滤算法的优缺点优点缺点 协同过滤算法的总结与展望Q&A 协同过滤算法的基本原理 关于协同过滤算法,我看过很多老师写的博客以及一些简单的教程&#x…

文章目录

    • 协同过滤算法的基本原理
    • 协同过滤算法的分类
    • 用户相似度计算
    • UserCF && ItemCF
      • 应用场景
    • 协同过滤算法的优缺点
      • 优点
      • 缺点
    • 协同过滤算法的总结与展望
    • Q&A

协同过滤算法的基本原理

  • 关于协同过滤算法,我看过很多老师写的博客以及一些简单的教程,我这里自己也总结了一些(建议大家去阅读王喆老师的深度学习推荐系统)。对于简单的推荐业务,协同过滤算法是必不可少的,也是新人学习推荐算法里绕不开的一个经典之作。
  • 协同过滤的核心思想就是对用户历史行为进行处理和挖掘,从而找到用户的喜好,并通过用户所喜好的内容进行召回、推荐(类似于猜你喜欢,购买相同商品的人又购买了哪些,听过相同音乐的人还喜欢听哪些)。

协同过滤算法的分类

  • 协同过滤算法可以大致分为两种类型:
    • 基于邻域的协同过滤算法
      • 基于用户的协同过滤算法(UserCF)
      • 基于内容的协同过滤算法(ItemCF)
    • 基于模型的协同过滤算法
      • 基于矩阵分解算法
      • 基于图模型算法

用户相似度计算

  • 用户相似度计算就是在共现矩阵中,每个用户对应的行向量其实就可以当作一个用户的 Embedding向量,然后对这些Embedding进行相似度计算。用户相似度计算是最关键的步骤,在我推荐算法一栏中也介绍了几种用户相似度计算得算法以及相关代码。这里我就简单总结一下几个常用的。

    • 欧氏距离
    • 余弦相似度
    • 修正余弦相似度
    • 皮尔逊相关系数
    • Jaccard相似系数
  • 当然业界还有一些升级之后的用户相似度计算的算法阿里的WBcosine(协同过滤etrec),Swing等,这里就不做过多的介绍了。

UserCF && ItemCF

  • 基于用户的协同过滤(User-Based Collaborative Filtering)通过分析用户之间的相似性来实现推荐。简单来说,就是根据用户的历史行为(比如浏览、购买、评分等)来找到与其兴趣相似的其他用户,然后向该用户推荐这些相似用户喜欢的商品或内容。

  • Q:UserCF真的就那么好用吗?

  • A:1.其实在典型的互联网电商环境下,往往用户数远大于物品书,而再最后计算Topn的相似用户,对于该用户的相似矩阵存储开销就会非常巨大,而随着时间的推移与业务量的发展,用户相似矩阵的以n^2的形式增长。
    2. 对于用户历史数据往往向量是比较稀疏,简单的说就是用户点击和购买次数非常少,找到相似用户的准确度是比较低的,同样也不适用于UserCF。

  • 基于内容的协同过滤(Item-Based Collaborative Filtering)与基于用户的协同过滤类似,但是其推荐的对象不是与目标用户相似的其他用户,而是与该用户曾经感兴趣的内容相似的其他内容。

应用场景

  • UserCF是基于用户相似度进行推荐,具有比较强大的社交属性,用户能快速得知与自己相似兴趣的人最近又关注了哪些,即使某些内容曾经并不感兴趣,但是通过朋友的推荐点击,也会动态更新在自己的推荐列表中(类似于抖音朋友推荐了xxx视频),应用场景:新闻热点类。
  • ItemCF更用于兴趣变化比较稳定的应用,比如一个用户在某个时间段内比较关注篮球鞋,这时候根据物品相似度就会推荐球衣或者体育器材等商品。应用场景:电商购物网站,音乐推荐,电影推荐。

协同过滤算法的优缺点

优点

  1. 个性化推荐
  2. 没有约束条件
  3. 灵活性高
  4. 可扩展性好
  5. 算法效果好

缺点

  1. 稀疏性问题
  2. 冷启动问题
  3. 数据稳定性问题
  4. 算法适用性问题

协同过滤算法的总结与展望

  • 协同过滤是个比较直观且解释性较强的一类模型算法,但是没有较强的泛化能力,也就是两两物品的相似性无法推广到其他商品相似度计算中,这样就会存在一个很严重的问题,就是对于近期具有头部热门商品,容易跟大量物品产生相似性,而尾部的稀疏向量就无法与其他物品产生相似性计算而减少对其的推荐。总结一下来说,推荐结果头部效应比较明显,但处理稀疏向量能力弱。
  • 对于解决此类问题,我们可以引用矩阵分解技术来增强模型的泛化能力,在协同过滤共现矩阵的基础上,添加用户与物品之间稠密的隐向量,从而挖掘隐含特征,来解决稀疏性问题。

Q&A

  • Q:对于日增大量商品,文章,电影(十万,百万级别)的情况下,如何考虑相似度计算?
  • A:在每天新增大量物品的情况下,一次性对所有物品进行相似度计算可能会非常耗时和占用大量的计算资源。为了提高计算效率,可以考虑以下几种方法:
      1. 增量计算:只对每天新增的商品与以往商品进行相似度计算。
      1. 分布式计算:使用Hadoop Spark大数据框架进行分布式计算,将商品数据分割成多个分区,利用服务器并行计算各个分区之间的相似度,最后再合并结果。
      1. 近似相似度计算:在实际应用中,并不需要精确的相似度计算。可以考虑使用一些近似相似度计算的方法(如LSH、MinHash等),通过降低计算复杂度来快速估计文章之间的相似度。
http://www.sczhlp.com/news/35067/

相关文章:

  • 那里有学做网站的电商营销推广方法
  • 用dw做购票网站营销软文范例500
  • 网站背景居中怎么做常州网站建设
  • 设计模板网站都有哪些百度视频
  • 长沙专业网站制作设计网站流量查询网站统计查询
  • 网站怎么换空间广告seo是什么意思
  • 和网站签约新闻外贸营销网站建设介绍
  • 做哪个网站的推广最好微信营销的10种方法技巧
  • [笔记]状压 DP
  • C++面试周刊(3):面试不慌,这样回答指针与引用,青铜秒变王者
  • 2 两数相加
  • 免费网站java源码大全不下载拼多多运营
  • 专业做室内设计的网站有哪些免费crm网站不用下载的软件
  • 网站建设个人简历企业seo培训
  • 徐州市中宇建设工程有限公司网站在线看crm系统
  • 诸暨网站建设torrent种子搜索引擎
  • 如何在百度网站收录提交入口大数据营销案例
  • 响应式网站的制作网站制作网络广告网站
  • 如何做vip微信电影网站百度网址大全在哪里找
  • 石家庄平台公司网站排名优化教程
  • 怎么做网赚网站网络营销和网络推广
  • 2025 贵阳代码源集训 复盘
  • 网站建设提案重庆seo整站优化系统
  • 买网站的域名杭州seo排名优化外包
  • 杭州知名网站制作公司销售网站排名
  • 做seo用什么网站系统百度快速排名提升
  • 河源网站建设 科技谷歌广告上海有限公司
  • php 企业网站开发教程引擎搜索网站
  • 数码网站建设维护荆州网站seo
  • 北京市住房与城乡建设部网站p站关键词排名