案例简介
•在这种情况下使用NVIDIAGPU加快平台、腾讯平台和内容业务集团(PCG)实现了深度学习平台”无量推荐系统”从模型训练到在线推理的全过程GPU加快,整体效率性价比提高1~3倍。
•本案主要用于NVIDIAA100TensorCoreGPU以及相关软件的加速平台。
客户介绍及应用背景
无量推荐系统承载着腾讯平台和内容业务群的推荐场景,包括:腾讯亮点(浏览器)QQ看点,商业化),腾讯新闻,腾讯视频,腾讯音乐,阅读,应用宝藏,鹅拼写等。无限推荐系统支持日活跃用户达到数亿,其中模型数量达到数千,日均呼叫服务达到1000亿。
无限推荐系统可以在模型训练和推理中进行海量推荐Embedding和DNN模型的GPU计算,是目前行业领先的体系结构设计。
客户挑战
传统的推荐系统具有以下特点:培训是一个基于参数服务器框架的分布式培训问题,用于处理大量数据和稀疏特征。推理通常与大规模分离Embedding和DNN,只能进行DNN的GPU加快。
所以,传统的推荐体系结构也有局限性:
大规模的分布式结构有很多额外的费用,比如网络收发的参数和梯度。
随着DNN进一步提高了模型的复杂性,CPU处理速度开始捉襟见肘。
随着业务的快速增长,日常客户的增加,调用的数量迅速增加,给推荐系统的背景带来了新的挑战:
1、模型比较复杂,计算量比较大,但是参数服务器的分布式架构有效计算比例很低。
2,海量Embedding由于规模大,很难有效利用查询和聚合计算GPU高性能显存和计算力的优点。
应用方案
基于上述挑战,腾讯选择基于上述挑战NVIDIAA100TensorCoreGPU建立无量推荐系统的分布式系统架构。
1、多级存储和存储Pipeline提升,在HPC完成大规模推荐模型GPU高性能训练。
2、基于特征的浏览Power-law分布特征,GPU同时缓存高频特征参数CPU中动态获取低频特征参数,实现完整的大规模推荐模型GPU端到端模型推理。
使用经验及影响
腾讯平台和内容业务群有多种类型的推荐业务场景。例如,信息流推荐QQ浏览器,QQ看点,新闻推荐腾讯新闻,视频推荐腾讯视频,微视,App推荐的应用宝,以及腾讯音乐的音乐推荐和文学推荐。
无限推荐系统为这些推荐的业务场景提供模型培训和推理服务。基于传统的推荐系统体系结构,没有大量的使用CPU资源可以通过分布式架构扩展到TB水平模型的训练和部署,取得了巨大的成功。
随着业务的快速增长,日常客户的增加,调用的数量迅速增加,传统体系结构的局限性限制了推荐体系的体系结构扩展和性能提升。
通过使用GPU培训和推理,单机多卡GPU算力可达几十台CPU机器的计算能力节省了许多额外的分布式费用。通过充分利用A100GPU快速访问高性能显存Embedding,并行算力处理DNN推理,单张A100GPU在相同的延迟下,可以推理10倍以上CPU评分样本。
目前基于GPU推荐体系结构可以提高模型训练和推理比1~3倍。
展望未来,无量推荐系统将不断优化推荐模型GPU应用,利用HPC多机多卡、混合精度等能力,进一步提高推荐场景的使用GPU的性价比。