推荐系统基础架构以及项目介绍

人工智能33

一、通用推荐系统框架

  • 数据收集
ETL MapReduce Spark Flink
  • 数据存储
Hive HBase MySQL Redis
持久化存储收集数据
通常按照数据的冷热,结构化和非结构化等特征分布存储
  • 算法召回
热门 协同过滤 内容 画像 替补
将海量的数据集,根据特定算法进行初步的筛选
从数十万降低至数百及数千
  • 结果排序
LR SVD DNN GBDT
进行精准排序
针对多个目标进行优化
  • 结果应用
猜你喜欢 相似推荐 看了又看
根据不同场景给用户展示最终的推荐结果
  • 自然属性
  • 画像特征:兴趣,行为
  • 关系特征:人群属性,关注关系,亲密度

  • 静态特征:分类标签

  • 动态特征
  • 相关性特征
  • 上下文特征
    今日头条
    推荐系统基础架构以及项目介绍

二、推荐常用算法

  • 基于流行度
    最热门 最新 最多人点赞
  • 基于内容
    相同标签 相同关键词 相似主题
  • 基于关联规则
    看了A的人也看了B
  • 近邻推荐
    协同过滤:基于用户 基于物品 基于模型

三、结果评估指标

*ROC指标*
对于输出值连续的分类器(如概率预测),在某一阈值下真阳性(TP)的概率/假阳性(FP)的概率

四、项目构建 (Concrec)

数据源:Kaggle Anime Recommenations Dataset(动漫数据来源:myanimelist.net)

汇总各方数据源 可视化检视数据 对数据进行清洗和转换

根据多种策略对候选集进行初步的召回

针对优化目标进行精准排序
实现特定规则的重排序

组装排序结果,并暴露接口供前端消费

结果展示 & 用户交互

五、Concrec技术选型

编程语言:python
微服务框架:Flask
前端页面:Vue
数据分析:pandas
大数据处理:spark + Flink(spark为主)
机器学习框架:TensorFlow(谷歌研发)

Spark分布式大数据处理平台 解决了计算能力和存储能力分布的问题 不同于Hadoop,Spark基于内存计算,速度更快 提供多种编程接口 如SparkSQL,Mllib等
Flink流式数据(stream)处理平台 以流为核心,高吞吐,低延迟 良好的容错性
TensorFlow机器学习框架 专注于神经网络、深度学习 在分布式训练、模型可视化等方面十分的出色

Original: https://blog.csdn.net/weixin_44105632/article/details/123385870
Author: RockyBlog
Title: 推荐系统基础架构以及项目介绍

相关文章
2022年政府工作报告词频分析 人工智能

2022年政府工作报告词频分析

2022年政府工作报告词频分析 a.获取网页文件(捕获异常) b.筛选有用目标 c.写入文件 d.文件预处理:去除无用字符及停用词汇 e.词频统计,建立字典,按词频排序并输出 f.绘制词云 from ...