请选择 进入手机版 | 继续访问电脑版
搜狗网站关键词最蜘蛛快排:今日头条:AI助力用户推荐(上)
admin 发表于:2021-8-2 15:52:34 复制链接 发表新帖
阅读数:9

  众所周知,字节跳动旗下的产品,无论是本日头条还是抖音,均是在AI的赋能下发展的如鱼得水。那么,本日头条的精准保举是基于AI的哪些技术?又是怎样实践的呢?本文笔者将推理出本日头条的底层AI技术气力和对AI的详细应用,共分上下两篇以飨读者。



  搜狗网站关键词最蜘蛛快排:今日头条:AI助力用户推荐(上)



  方法:



  基于本日头条用户分享的图像、笔墨及用户标签数据,为用户保举匿伏的好友,从而更好的为用户做个性化保举和精准化服务。



  在获取头条用户分享的图像、笔墨及用户标签的基础上,通过使用AI里深度学习的方法使用图像、笔墨及用户标签数据来表达用户爱好特性。基于这三类特性组合,通过计算用户之间的余弦相似度来发掘与目的用户爱好最相近的多少个候选用户。



  传统保举体系原理:



  保举体系最早是由Resnick和Varian于1997年提出的,通过使用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买哪些商品,模拟贩卖职员帮忙客户完成购买过程。



  被百度蜘蛛抓到会怎样传统保举体系仅思量向用户保举商品的相似度,或保举相似商品的广告等方式办理用户的信息需求。这种保举方式用户需从大量的相似商品,或保举广告中,选择自以为较好的商品或服务。并且是一个非常漫长的过程,且对商品或服务存在肯定的信托度。



  传统保举体系弊端:



  别的,传统保举体系存在着冷启标题,如:用户活动数据和用户特性数据无法获取,如无法获取这两类数据,体系便无法对用户举行产品保举。



  社群化保举体系的鼓起:



  随着交际网站的鼓起,社会化保举体系渐渐开始盛行起来,用户购买产品的方式渐渐由传统的体系保举转向好友(网友)保举,更多的时间是基于同类爱好群体,或好友保举。由于用户范例较为近似的好友或网友,大概在性格爱好方面有着更多的相似性,如:辅导或知识布局的相似性、性格的相似性、工作环境的相似性、生存环境的相似性等,都会在交际网站上找到爱好圈或朋侪圈。



  社会化保举体系的遍及:



  头条类网站伴随时间的发展,渐渐演化成用户阅读消息资讯内容中必不可缺少的工具。传统的保举体系,从此由内容信息保举渐渐演化为社会化关系网站用户爱好信息保举,内容或服务信息也正演化精神层次信息需求。



  如:我们在头条上阅读某条文章然后保举给我们一个盛行的商品或服务,我们渴望将购买信息微头条里的每一个人,这也正是头条产品交际化的告急性。



  头条将电商交际化:



  传统的电商不再是靠单一的卖商品或服务而存在,更多的是演化到基于交际网络或微头条的商品或服务。淘宝上的商品贩卖也被证实有一部分来自于好友的保举。



  朋侪圈或爱好圈保举在交际网站的演化过程中扮演着越来越告急的脚色,交际网站保举从最初的用户引流到新用户活跃度、再到用户爱好圈的形成及发展到现在的网络社区构建及用户关系的演化,交际化保举体系是帮助用户办理信息不对称较好的方法,也是用户对感爱好信息获取的一种较好途径和过滤垃圾信息的一种告急本领。



  同时,交际化保举体系改善了传统保举体系中用户之间的关注度和信托度标题。



  头条用户保举原理:



  头条用AI算法给用户保举内容和商务及服务,告急根据用户在头条上欣赏、评价、关注、点赞收藏和发布的文本数据、标签数据和图像数据之间的语义关联来构建用户的爱好表达,通过计算目的用户和候选用户之间的余弦相似度来为目的用户保举类似或相似的好友360蜘蛛爬取有什么问题吗,进而为用户保举得当用户的内容和服务。



  头条综合保举体系:



  社会化保举体系有如下5种范例:



  1. 基于内容的保举



  体系关键技术根据用户已知的偏好、爱好等属性或商品内容属性相匹配,为用户保举好友或感爱好商品,该保举技术已经用运用于很多范畴。



  2. 协同过滤保举



  协同过滤保举技术告急通过体系辨认拥有类似或相似爱好和偏好的用户,并为用户举行保举。



  3. 基于生齿统计的保举



  一样寻常是将用户按其个人属性(如:性别,年事,辅导背景,居住地,语言等)举行分类,将以上效果做为保举的基础,对用户举行爱好匹配及广告保举。



  4. 基于范畴知识的保举



  一样寻常是基于某个范畴的图推论或是本体构建来对用户的需求或爱好偏好举行匹配。



  5. 混合保举



  将上述的各种保举体系使用技术本领组合起来,充分发挥各保举体系的长处,规避其缺点。在肯定程度上进步了保举效果自从保举体系问世,就运用到各种范畴——如:用户、册本、购物、消息、美食等;



  比方:头条通过使用基于内容的保举技术计划了一个购物保举体系,采用词袋模子构建用户的爱好偏好,根据用户对商品的汗青购买或欣赏活动信息,建立用户的特性向量,然后根据用户的特性向量和商品的内容的匹配程度为用户保举新的商品。



  6. 头条用AI技术做好友保举体系



  好友保举的目的是:让用户更便捷的找到熟悉或爱好相似的好友,使得用户的交际网络布局也更加真实可信。



  用户找到好友的途径告急通过好友发布的各种信息,如:品评信息、用户标签、图像等。



  现在,头条交际网络好友保举用到了文本或图像信息:



  通过对用户微头条、交际关系和地理位置三类数据举行融合来为用户做好友保举;



  运用微头条的标签与社会标注体系中的标签区别,通过使用向量空间模子使头条中用户产生的标签向量形貌用户爱好,然后将头条用户的爱好发现标题看做是对用户举行标签的保举,比方用TagRank方法,通过计算标签的告急度对标签重新排序百度蜘蛛抓取关键词的规则实现对头条用户的爱好保举。



  还运用了一种基于人脸图像的好友保举体系,该图像保举体系根据用户选择比较感爱好或关注的人脸图像对用户举行好友保举,这种基于好友的保举体系告急是提取人脸颜色特性、布局特性和纹理特性来建立用户的外貌偏好对用户举行了好友保举。



  7. 用户爱好组合保举产品架构



  用户保举流程如下图:



  搜狗网站关键词最蜘蛛快排:今日头条:AI助力用户推荐(上)



  本日头条已经充分使用用户发布的图像、文章和用户标签数据等信息,找到了较为有用的用户爱好表示方法。换言之,用户爱好辨认效果是基于图像、文章和用户标签融合的。



  因此,主要使命是获取头条用户发布的图像、文章及用户爱好标签数据,并对这些数据举行预处理;然后,提取图像语义特性、文章语义特性和用户标签特性,并通过以上三种特性的组合,得到多模态的用户爱好表达;末了,通过计算不同用户之间爱好表达的余弦相似度,选择最相似的Top-N个用户保举给目的用户。



  用户爱好保举表示和保举方法:



  用户爱好保举是为本日头条中的某个用户u∈ U 保举与其爱好相似的用户集合U’ U 。



  本文笔者LineLian将用户爱好保举转化为一个用户爱好表示标题——即起首将恣意用户u∈ U 转化为爱好空间中的高维特性向量 v ,然后在高维特性空间中根据爱好向量的余弦间隔获得与用户 u 的爱好特性向量最靠近的 k 个特性向量,这些特性向量对应的用户则为保举用户集合U’。



  基于余弦相似度的用户爱好保举告急有两个核心步骤:



  构建特性空间;在特性空间中计算用户爱好特性向量的相似度。以下分别对这两个步骤举行详细阐明:



  (1) 构建特性空间本质上是探求某个特性映射函数 f ,使得搜狗蜘蛛显示304该函数可以或许将用户 u 映射为高维爱好特性空间中的点v ——即 f ( u)→v ,v 也可以称为用户 u 在爱好特性空间中的特性向量。



  思量到本日头条中存在三种不同模态的信息可以或许表征用户爱好——即头条图像、文章和用户标签,因此得出一个头条基于多模数据的用户爱好表征方法。



  记用户 u=[Iimg, Itext, Itag] ,此中 Iimg、Itext、Itag分别对应图像、文章和用户标签三种信息。



  对于图像信息 Iimg,LineLian在ImageNet数据集上预训练好的ResNet模子提取图像中包含的语义作为图像特性向量——即 vimg=fResNet(Iimg) ;对于文本信息 Itext,LineLian使用在百度百科上预训练好的Word2Vec模子,通过计算文章中的词向量匀称值作为文本特性向量——即 vtext=Avg(fWord2Vec( I)text) ;对于用户标签信息 Itag,可以使用向量空间模子将标签信息表示为特性向量,即 vtag=fVSM(Itag) 。终极,用户的爱好特性向量可以表示为多模向量的组合:



  v=fResNet+Word2Vec+VSM( I)img, Itext, Itag=[vimg, vtext, vtag]



  (2) 在特性空间中,计算用户爱好特性向量相似度,现实上就是:选择合适的数学计算方法估计特性向量之间的相似度。可以通过计算目的用户与候选用户集多模爱好,表达的余弦相似度表示用户间的相似程度,然后根据用户之间的相似度对候选用户集举行排序,末了将TopN个候选用户保举给目的用户。



  余弦相似度的计算方法如下:



  sim( v)i,vj=cos( v)i,vj=vi vj|v|i×|v|j=∑aN( v)ia vja∑aN( v)ia2× ∑aN( v)ja2



  为了更加精致的研究各个模态特性权重对整个保举方法的贡献,可以对各个模态表达的相似度举行加权如公式如下:



  coefficient=∑i∈ Csim(i)×ratio(i)



  此中,coefficient为保举系数,C={文章,标签,图像},sim(i)分百度蜘蛛不爱来别表示用户之间的文本、标签和图像相似度,ration(i)分别表示用户之间的文本、标签和图像相似度综合保举时所占的比重。可以使用网格搜索的方法来探究最佳的权重 ratioi,此中 ratioi∈ [0,1] ,网格搜索的步长为0.1。



  总结:



  作为智能数据保举,或者AI产品司理,在本日头条用户关系保举体系中要明确:



  保举体系的汗青成因。保举模子算法是包含多种此中有Bow /Word2vec/Nesnet等。数据包含文本、图像、标签、交际网络数据、微数据等是是一种粮食来支持AI神经网络的搭建和运算。AI产品司理在本日头条AI助力用户保举上篇中明确产品做得是和谐好数据、共同算法建模求解、优化。



  #专栏作家#



  大家都是产品司理专栏作家,《产品进化论:AI+期间产品司理的头脑方法》一书作者,前阿里产品专家,渴望与创业者多多交流。



  本文原创发布于大家都是产品司理。未经允许,克制转载。



  题图来自Unsplash,基于CC0协议



  举报/反馈
条评论
avatar
您需要登录后才可以回帖 登录 | 立即注册
高级