免费咨询热线

13621929115
常见问题
您的位置: 主页 > 新闻动态 > 常见问题

展示模型

发布日期:2023-04-04 22:04浏览次数:

 以下文章来源于机器之心SOTA模型 ,作者机器之心SOTA模型 机器之心专栏本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型展示模型及 API 等资源。

    本文将分 3 期进行连载,共介绍 18个在推荐系统任务上曾取得 SOTA 的经典模型第 1 期:DSSM、Youtube_DNN、SASRec、PinSAGE、TDM、MIMD第 2 期:PinnerSAGE、ENSFM、MHCN、FFM、FNN、PNN。

    第 3 期:Wide&D展示模型eep、DCN、xDeepFM、DIN、GateNet、IPRec您正在阅读的是其中的第 1 期前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

    本期收录模型速览模型SOTA!模型资源站收录情况模型来源论文DSSMht展示模型tps://sota.jiqizhixin.com/project/dssm-2收录实现数量:3支持框架:PaddlePaddle、PyTorch

    Learning Deep Structured Semantic Models for Web Search using Clickthrough Da展示模型taYoutube_DNNhttps://sota.jiqizhixin.com/project/youtube-dnn

    收录实现数量:4支持框架:TensorFlow、PyTorchDeep Neural Networks for YouTube RecommendationsSASRechttps展示模型://sota.jiqizhixin.com/project/sasrec

    Self-Attentive Sequential RecommendationPinSAGEhttps://sota.jiqizhixin.com/project/pinsageGraph Convolutional Neu展示模型ral Networks for Web-Scale Recommender Systems

    TDMhttps://sota.jiqizhixin.com/project/tdm收录实现数量:2支持框架:PaddlePaddleLearning Tree-based Deep Model for Re展示模型commender Systems

    MIMDhttps://sota.jiqizhixin.com/project/mimd支持框架:PaddlePaddle、TensorFlowMulti-Interest Network with Dynamic Routing for Recommendatio展示模型n at Tmall

    推荐系统是指利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程的系统在广告、电商、信息流分发等业务场景中,推荐系统发挥了至关重要的作用,是帮助用户快速获得感兴趣的信息的关键,也是改进产品以吸引用户、提高用户粘性的关键。

    推荐系统展示模型把用户模型中的兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户为了实现精准推荐,首先要对用户进行画像对用户画像打标签后,生成多维度、丰富、全面的用户标签,这些标签就是推荐系统中的特征,而这些特征就是推荐系统中的。

    推荐算法/模展示模型型的输入数据利用特征对推荐算法/模型进行离线训练,然后进行A/B测试后,获得最终的推荐算法/模型后续还包括算法/模型的部署、冷启动等流程具体到推荐算法/模型部分,一般包括两大环节:召回和排序。

    召回主要是指"根据用户的兴趣和历史行为,从海量的物品库里,快速找回一小部分用户潜在感兴趣的物品"召回方法主要展示模型要求具备处理数据量大、处理速度快的能力经典的召回方法包括基于统计的启发式召回和基于深度学习的向量召回方法。

    本报告主要聚焦于基于深度学习的召回方法排序则是指根据多类特征,使用模型进行个性化的推荐排序环节还可以进一步细分为粗排、精排和重排推荐算法/模型在工业场景中应用主要面对下面这些问题:数据量庞大、训展示模型练环境低效、在线和离线环境的不一致、上线部署的困难等等。

    因此,一个好的推荐系统中一般会应用多个推荐算法/模型,而每个推荐算法/模型的最佳效果需要工程师在实践中摸索调试出来的,每个基础模型又有很多改良版本,针对不同的问题效果也可能不同我们在这篇报告中总结的是能够在推荐系统中应用的必备的TOP基础

    推荐算展示模型法/模型一、召回模型1、 DSSMDSSM(Deep Structured Semantic Models)也叫深度语义匹配模型,最早是在微软2013年发表的一篇应用于 NLP 领域中计算语义相似度任务的文章中提出的。

    DSSM是适用于广告推荐领域中的模型,其目的是从广告维度为广告主推荐一定数量的人群展示模型,从数量上看是从数亿级别人群中找出百万级人群用于投放广告,所以是召回模型DSSM 原理很简单:获取搜索引擎中的用户搜索 query 和 doc 的海量曝光和点击日志数据,训练阶段分别用复杂的深度学习网络构建 query 侧特征的 query embedding 和 doc 侧特征的 doc embe展示模型dding,线上 infer 时通过计算两个语义向量的 cos 距离来表示语义相似度,最终获得语义相似模型。

    这个模型既可以获得语句的低维语义向量表达 sentence embedding,还可以预测两句话的语义相似度图1. DSSM使用DNN将高维稀疏的文本特征映射为语义空间中的低维密集特征第一个隐展示模型藏层有3万个单元,用于完成word-hash。

    然后,通过多层非线性投影,将word-hashed特征进行投影最后一层的神经活动在这个DNN中形成了语义空间的特征如图1所示,DSSM使用一个DNN架构将原始文本特征映射到语义空间中的特征DNN的输入(原始文本特征)是一个高维的术语向量,例如,查询或文档展示模型中的术语的原始计数,而DNN的输出是一个低维语义特征空间的概念向量。

    DNN模型用于网络文档的排名,具体包括:1)将术语向量映射到其相应的语义概念向量;2)将文档和查询之间的相关性分数计算为其相应语义概念向量的余弦相似度对于输入是英文的输入层,可以通过 Word Hashing 方式处理,该方法基于字展示模型母的 n-gram,主要作用是减少输入向量的维度。

    而对于输入是中文的输入层,还要增加额外的分词处理步骤给定一个词(例如:good),首先在该词上添加词首和词尾的标记(例如:#good#)然后,将该词分解为字母n-grams(例如,字母trigrams:#go, goo, ood, od#)。

    最后,用展示模型一个字母n-grams的向量来表示这个词DSSM 模型表示层使用的是 BOW(bag of words)词袋模型,没有考虑词序的信息,由图1可见,最下面的 Term Vector 到 Word Hashing 将词映射到 3W 维的向量空间中。

    然后分别经过两层 300 维度的隐藏层,最后统一输出 1展示模型28 维度的向量最后,将 query 和 doc 统一转换成了两个 128 维的语义向量,接下来通过 cos 函数计算这两个向量的余弦相似度,公式如下:

    其中,y_Q和y_D分别是查询和文档的概念向量在网络搜索中,给定查询,文件按其语义相关性分数进行排序使用点击数据对模型进行训练以获取参数,目的是使得展示模型点击概率最大(即最小化损失函数)条件概率如下:根据极大似然估计法,得出损失函数:

    当前 SOTA!平台收录 DSSM 共 3 个模型实现资源项目SOTA!平台项目详情页DSSM前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/dssm-2。

    2展示模型、 Youtube_DNNYoutube_DNN是Youtube推出的一个视频推荐模型,属于一个应用场景驱动的模型视频推荐任务中面临的问题包括:数据规模超大、视频(数据)更新速度快且对响应速度要求高、用户行为预测难度大(用户隐式反馈多、显式反馈少)。

    如图2所示,Youtube_DNN主要包括三个阶段展示模型:(1)召回层:从百万级视频中筛选出小部分视频;要求速度快;召回层根据用户历史观看、搜索等记录进行召回,以满足用户泛化的兴趣(2)排序层:为了更精准地推荐给用户,这阶段需要更加复杂的模型和特征进行排序。

    (3)线下评估:评估指标有precision、recall、ranking loss;最终线上做A展示模型/B测试(指标:点击率、观看时间)图2. Youtube_DNN推荐模型架构在召回层,YouTube把推荐问题看作是一个超大规模多分类softmax问题,给定用户历史行为和上下文,学习用户嵌入,然后输入softmax生成召回层的候选集结果。

    完整的召回模型如图3所示图3. YouTube候选集生成模型展示模型架构YouTube_CNN输入的特征包括用户历史观看视频的嵌入向量、搜索词的嵌入向量、用户地理特征、用户设备特征和example age、人口属性特征。

    example age可以理解为视频的年龄:初始值设为0,随着时间的增长,记录视频的年龄然后,将输入的特征通过concat层连接起来,输入到三层Re展示模型LU神经网络中训练使用常见的塔状设计,底层最宽,往上每层的神经元数目减半,直到 Softmax 输入层是 256 维(1024ReLU→512ReLU→256ReLU)。

    利用softmax层进行分类,定义为基于特定用户U 和其上下文 C,在时刻t,将视频库 V中指定的视频 w_t划分为第 i 类的概展示模型率:softmax输出层不是做点击率预估,而是预测用户会点击哪个视频,即用softmax对视频进行分类,然后按照概率进行从大到小的排序,选取topN。

    输出层的维度和视频ID的嵌入向量维度相同,最终得到用户向量u图4. Youtube_DNN排序模型架构图4是 Youtube_DNN的推荐模型架构排序展示模型模型的作用是引入更多描述视频、用户以及二者之间关系的特征,达到对候选视频集合准确排序的目的。

    图4与图3的整体结构非常相似,主要的区别在于特征工程部分排序模型中用到的特征包括:(1)impression video ID embedding: 当前要计算的video的embedding;(2)watc展示模型hed video IDs average embedding: 用户观看过的最后N个视频embedding的average pooling;(3)language embedding: 用户语言的embedding和当前视频语言的embedding;(4)time since last watch展示模型: 自上次观看同channel视频的时间;(5)#previous impressions: 该视频已经被曝光给该用户的次数。

    当前 SOTA!平台收录 Youtube_DNN 共 4 个模型实现资源项目SOTA!平台项目详情页Youtube_DNN前往 SOTA!模型平台获取实现资源:https:/展示模型/sota.jiqizhixin.com/project/youtube-dnn。

    3、  SASRec顺序动态是许多现代推荐系统的一个关键特征,这些系统试图根据用户最近执行的行动来捕捉他们活动的 "背景"为了捕捉这种模式,有两种主要的方法:马尔科夫链(Markov Chains,MCs)和循环神经网展示模型络(RNNs)。

    马尔科夫链假定可以根据用户的最后(或最后几个)行动来预测他们的下一个行动,而RNN原则上允许发现更长期的语义一般来说,基于马尔可夫链的方法在极其稀疏的数据集中表现最好,在这种情况下,模型的简洁性至关重要;而RNN在密集的数据集中表现更好,在这种情况下,更高的模型复杂性是可以承受的。

    本展示模型文的目标是平衡这两个目标,提出了一个基于自注意力的顺序模型(self-attention based sequential model,SASRec),它允许我们捕捉长期语义,使用注意力机制,根据相对较少的行动进行预测。

    在每个时间步长,SASRec试图从用户的行动历史中识别哪些项目是 "相关的",并展示模型利用它们来预测下一个项目图5. SASRec的训练过程的简化图在每个时间步长中,模型考虑所有以前的项目,并使用注意力来 "关注 "与下一个行动相关的项目。

    在顺序推荐的设定中,给定一个用户的行动序列Su = ((S_1)u, (S_2)u, ..., (S_|Su|)u),预测下一个项目在训练过程中,展示模型在时间步长t,模型根据之前的t个项目来预测下一个项目将训练序列((S_1)u, (S_2)u, ..., (S_|Su|-1)u)转化为固定长度的序列s = (s_1, s_2, ..., s_n),其中,n代表模型可以处理的最大长度。

    如果序列的长度大于n,我们就考虑最近的n个动作如果序列长度小于n展示模型,我们在左边重复添加一个 "padding "项,直到长度为n创建一个项嵌入矩阵M∈R|l|xd,其中,d是潜在维度,并检索输入嵌入矩阵E∈Rnxd,E_i=M_si。

    一个恒定的零向量0被用来作为填充项的嵌入由于自注意力模型不包括任何循环或卷积模块,它不知道以前的项目的位置因此,我们在输入嵌入中注入展示模型一个可学习的位置嵌入P∈Rnxd缩放的点积注意力定义为:在机器翻译等NLP任务中,注意力机制通常使用K=V(例如使用RNN编码器-解码器进行翻译:编码器的隐藏状态是键和值,解码器的隐藏状态是查询)。

    在该方法中,自注意力操作将嵌入的E_b作为输入,通过线性投影将其转换为三个矩阵,并将其送入注意力层:由展示模型于序列的性质,模型在预测(t+1)项时应该只考虑前t项然而,自注意力层(S_t)的第t个输出包含后续项目的嵌入,这使得该模型不适用。

    因此,通过禁止Qi和Kj(j>i)之间的所有链接来修改注意力尽管自注意力能够以适应性的权重聚合所有以前的项目嵌入,但最终它仍然是一个线性模型为了赋予该模型以非线性,并考展示模型虑不同潜在维度之间的相互作用,对所有的S_i都采用了一个点式两层前馈网络(共享参数):。

    在第一个自注意力区块之后,F_i基本上聚合了所有以前的项目嵌入(即E_bj, j≤i)然而,通过另一个基于F的自注意力块来学习更复杂的项目转换可能是有用的具体来说,将自注意力区块(即一个自注意力层和一个前馈网络)展示模型进行堆叠,第b(b>1)个区块定义为。

    然而,当网络加深时,有几个问题会变得更加严重1)模型容量的增加导致过度拟合;2)训练过程变得不稳定(由于梯度消失等原因);3)具有更多参数的模型往往需要更多的训练时间因此,引入以下处理:现有的顺序推荐方法表明,最后访问的项目对预测下一个项目起着关键作用。

    然而,在展示模型经过几个自注意力块之后,最后访问的项目的嵌入已经与之前的所有项目纠缠在一起;添加残差连接将最后访问过的项目的嵌入传播到最后一层,会使得该模型更容易利用低层的信息层归一化是用来归一化各特征的输入(即零均值和单位方差),这有利于稳定和加速神经网络训练。

    与批量归一化不同,层归一化中使用的统计数据与同一批次展示模型中的其他样本无关具体来说,假设输入是一个包含样本所有特征的向量x,该操作被定义为:为了缓解深度神经网络中的过拟合问题,"Dropout "正则化技术已被证明在各种神经网络架构中是有效的。

    Dropout的概念很简单:在训练期间以概率p随机 "turn off "神经元,并在测试时使用所有神经元我们还在展示模型嵌入的E^上应用了一个Dropout层在自适应地、分层次地提取先前消费的项目信息的b个自注意力块之后,根据(F_t)b预测下一个项目(给定前t个项目)。

    具体来说,采用一个MF层来预测项目i的相关性为了减少模型的大小和缓解过度拟合,本文考虑另一种方案,它只使用一个单一的项目嵌入M:使用同质物品嵌入的一展示模型个潜在问题是,它们的内部产品不能代表不对称的物品转换(例如,物品i经常在j之后购买,但反之则不然),我们的模型没有这个问题,因为它学习了一个非线性变换。

    为了提供个性化的推荐,现有的方法通常采取两种方法之一:1)学习一个代表用户偏好的显式用户嵌入2)考虑用户以前的行为,并从访问过的项目的嵌入中诱导出一展示模型个隐含的用户嵌入:其中,U为用户嵌入当前 SOTA!平台收录 SASRec 共 4 个模型实现资源。

    项目SOTA!平台项目详情页SASRec前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/sasrec4、 PinSAGEPinterest展示模型 推出的基于 GCN ( GraphSAGE)的召回算法 PinSAGE,被称为"GCN 在工业级推荐系统上的首次成功运用"。

    PinSAGE 主要思想是通过 GraphSAGE 得到 pin(Pinterest 中的书签,可以理解为普通推荐系统中的 item)的向量表示,然后基于 pin embed展示模型ding 做 item2item 的召回。

    PinSAGE 底层算法就是 GraphSAGE,只不过为了将其落地于一个 web-scale 的工业级推荐系统,PinSAGE 做了一系列的改进图6. depth-2卷积的模型结构概览上左图:一个小的输入图例。

    上右图:2层神经网络,计算出节点A的嵌入(h_展示模型A)2的2层神经网络,该网络使用前一层的表示法计算节点A的嵌入底部:计算输入图的每个节点嵌入的神经网络虽然各节点的神经网络不同,但它们都有一组相同的参数具有相同阴影模式的方框共享参数;γ表示重要性集合函数;薄矩形方框表示密集连接的多层神经网络。

    PinSAGE的关键计算工作原理是局部图卷积的概念为了生展示模型成一个节点(即一个项目)的嵌入,应用了多个卷积模块,这些模块从节点的局部图邻域聚集特征信息(例如,视觉、文本特征)(如图6所示)每个模块都会学习如何从一个小的图形邻域聚集信息,通过堆叠多个这样的模块,PinSAGE可以获得关于局部网络拓扑结构的信息。

    重要的是,这些局部卷积模块的参数是在所有节点上共享展示模型的,这使得该方法的参数复杂性与输入图的大小无关Pinterest是一个内容发现应用程序,用户与pins互动,pins是在线内容的视觉书签(例如,他们想做的菜谱,他们想购买的衣服等等)。

    用户将这些pins整理成板块,其中,包含用户认为在主题上相关的pins集合总的来说,Pinterest图包含20亿个展示模型pins,10亿个boards,以及超过180亿条边(即pins与相应board的会员关系)。

    我们的任务是生成高质量的pins嵌入或表示,以用于推荐为了学习这些嵌入,将Pinterest环境建模为一个由两个互不相干的集合(I(包含pins)和C(包含boards)中的节点组成的二方图除了图结构之外,展示模型还假设pins/项目 u∈I与实值属性x_u∈Rd相关。

    一般来说,这些属性可以指定项目的元数据或内容信息,在Pinterest的案例中,我们认为pins与丰富的文本和图像特征都有关联目标是利用这些输入属性以及bipartite graph 的结构来生成高质量的嵌入。

    然后,利用这些嵌入通过最近邻查找来展示模型生成推荐系统的候选人,或者作为机器学习系统中的特征来对候选人进行排名前向传播算法我们考虑的任务是为一个节点u生成一个嵌入z_u,这取决于节点的输入特征和这个节点周围的图结构。

    PinSage算法的核心是一个本地化的卷积操作,在这里我们学习如何从u的邻域聚合信息(图6)整个过程详见算法1其基本思想是,我展示模型们通过密集神经网络转换u的邻域表示z_v ,∀v∈N (u),然后在生成的向量集上应用聚合器/池化函数(line 1)。

    这个聚合步骤提供了一个u的本地邻域N(u)的向量表示n_u然后,将聚合的邻域向量n_u与u的当前表示h_u连接起来,并将连接的向量通过另一个密集的神经网络层进行转换(Line 2)展示模型作者观察到在使用串联操作时有明显的性能提升。

    此外,第3行的归一化处理能够使得训练更加稳定,对归一化嵌入进行近似近邻搜索的效率更高该算法的输出是一个u的向量表示,它包含了关于自身和局部图邻域的信息基于重要性的邻域PinSAGE的一个重要创新是如何定义节点邻域N(u),也就是说,如何选择算法1中的邻域集展示模型合来进行卷积。

    以前的GCN方法只是检查k-hop图的邻域,而在PinSage中,定义了基于重要性的邻域,其中一个节点u的邻域被定义为对节点u影响最大的T个节点具体来说,模拟从节点u开始的随机行走,并计算随机行走所访问的节点的L1归一化访问计数。

    然后,将u的邻域定义为相对于节点u具有最高归一化访问计数展示模型的前T个节点这种基于重要性的邻域定义有两方面的优势首先,选择固定数量的节点进行聚合,使我们能够在训练期间控制算法的内存占用其次,它允许算法1在汇总局部向量表示时考虑到邻居的重要性。

    特别是,将算法1中的γ作为加权平均数来实现,其权重根据L1归一化访问计数来定义作者把这种新的方法称为重要性集合堆叠卷积每展示模型次应用卷积操作(算法1)都会得到一个新的节点表示,我们可以将多个这样的卷积堆叠在一起,以便获得关于节点u的局部图结构的更多信息。

    特别是引入多层卷积,其中,第k层的卷积输入取决于第k-1层输出的表示(图6),初始(即 "第0层")表示等于输入节点特征算法1中的模型参数(Q、q、W和w)是各节点共享的,展示模型但各层之间有所不同算法2详细说明了堆叠卷积如何为mini-batch的节点集M生成嵌入。

    首先计算每个节点的邻域,然后应用K卷积迭代来生成目标节点的K层表示最后卷积层的输出再通过一个全连接的神经网络来生成最终的输出嵌入z_u,∀u∈M随后学习的模型的全套参数:每个卷积层的权重和偏置参数(Q(k),q(展示模型k),W(k),w(k), ∀k∈{1,...,K})以及最后密集神经网络层的参数G1,G2和g。

    算法1中第1行的输出维度(即Q的列空间维度)在所有层都被设定为m为了简单起见,将所有卷积层的输出维度(即算法1第3行的输出)设置为相等,用d表示这个尺寸参数模型的最终输出维度(应用算法2第18行后)也设展示模型置为d。

    以有监督的方式训练PinSage,使用的损失函数为 max-margin ranking loss假设我们可以获得一组有标签的物品对L,其中,集合中的物品对(q,i)∈L,被假设为是相关的,即我们假设如果(q,i)∈L,那么物品i是查询物品q的一个好的推荐候选者。

    训练阶段的目标是优化PinS展示模型age的参数,使标签集合中的物品对(q,i)∈L的输出嵌入接近为了训练模型的参数,我们使用一个基于最大边际的损失函数( max-margin-based loss function)。

    其基本思想是,我们要使正例的内积最大化,即查询项和相应的相关项的嵌入同时,我们要确保负样本的内积—即查询项的嵌入与不展示模型相关项的内积—比正样本的内积小一些,且有一定的预设幅度因此,单对节点嵌入(zq, zi):(q,i)∈L的损失函数为:。

    当前 SOTA!平台收录 PinSage 共 3 个模型实现资源项目SOTA!平台项目详情页PinSage前往 SOTA!模型平台获取实现资源:https://sota.jiqiz展示模型hixin.com/project/pinsage。

    5、 TDMTDM(Tree-based Deep Model)是一种新的基于树的方法,它可以提供与语料库大小相对应的对数复杂度,如深度神经网络,主要想法是通过自上而下地遍历树状节点,对每个用户-节点对进行决策,从粗到细地预测用户兴趣。

    树状结构可以展示模型联合学习,以更好地兼容用户的兴趣分布,从而促进训练和预测图7. 淘宝网展示广告推荐系统的系统架构在收到用户的页面浏览请求后,系统使用用户特征、上下文特征和项目特征作为输入,从匹配服务器的整个语料库(数以亿计)中生成一个相对小得多的候选项目集(通常是数百个)。

    基于树形的推荐模型在这个阶段做了大量工作,展示模型将候选集的规模缩小了几个数量级TDM模型旨在构建一个有数百个项目的候选集根据用户是否对生成的候选项目感兴趣,给出了一个印象质量的上限如何从整个语料库中提取候选人,权衡效率和效果是工业级应用要解决的关键问题。

    图8. 基于树形的深度模型架构用户行为根据时间戳划分为不同的时间窗口在每个时间窗口中,项目嵌入展示模型加权平均,而权重来自激活单元每个时间窗口的输出和候选节点的嵌入被串联起来作为神经网络的输入在三个具有PReLU激活和批量归一化的全连接层之后,使用二进制softmax来得出用户是否对候选节点感兴趣的概率。

    每个项目和其相应的叶子节点共享相同的嵌入所有嵌入都是随机初始化的TDM架构如图8所示树搜索的方式展示模型体现在右下角,作者希望最终构建出来的树是满足贪婪搜索的,即从上而下,每层保留topk个路径,最终就能得到推荐的topk个商品。

    为树上的每个节点学习低维嵌入,并使用注意力模块软搜索相关的行为,以更好地代表用户为了利用包含时间戳信息的用户行为,作者设计了分块输入层来区分位于不同时间窗口的行为历史行为可以展示模型沿着时间线划分为不同的时间窗口,每个时间窗口中的物品嵌入是加权平均的。

    注意力模块和下面的网络大大加强了模型的能力,也使用户对候选项目的偏好不能被调节到内部树的初始化树用于表征用户兴趣的层次信息,所以我们的目标是将类似的项目组织在树型结构接近的位置上鉴于类别信息在许多领域都是广泛存在的,作者提出了一个展示模型利用项目的类别信息来建立初始树的方法。

    我们以二叉树为例,首先,对所有类别进行随机排序,并将属于同一类别的项目以类别内的随机顺序放在一起如果一个项目属于一个以上的类别,将该项目分配到一个随机的类别,以保证其唯一性通过这种方式,我们可以得到一个排序后的项目列表。

    其次,这些排序后的项目被递归地减半为两个相展示模型等的部分,直到当前的集合只包含一个项目,这可以自上而下地构建一个接近完整的二叉树树的学习作为模型的一部分,每个叶子节点的嵌入可以在模型训练后学习然后,我们使用学习到的叶子节点的嵌入向量来聚类一个新的树。

    考虑到语料库的大小,我们使用k-means聚类算法,因为它具有良好的可扩展性在每一步,项目根据其嵌展示模型入向量聚类为两个子集调节两个子集至相等以获得一个更平衡的树当只剩下一个项目时,递归就会停止,二叉树可以用这样一种自上而下的方式来构建。

    深度模型和树结构是以另一种方式共同学习的:1)构建初始树并训练模型直到收敛;2)在训练的叶子节点嵌入的基础上学习获得新的树结构;3)用学习的新树结构再次训练模型。MI展示模型MD


标签:

产品推荐

Copyright © 2002-2020 上海润之模型设计有限公司 版权所有 展示模型,展品模型,展厅模型,展示道具,展厅展品,展品道具,模型定制,模型公司,上海模型公司 备案号:沪ICP备20018260号

13621929115