长征三号乙改五火箭成功首发
|
陆玖财经准备开新栏目了,每周一创始人郭开森和杨帆合体郭德帆,对行业进行一些观察和评论,第一篇我们仍是打算写社区团购,这是当下最火的话题。 来过陆玖财经做客的朋友们都知道,我们的伙食很好,因为我们有自己做午餐的习惯,美团买菜、每日优鲜都是陆玖财经经常用的买菜软件,我们经常也是头天晚上下单,第二天早晨让平台送货到公司,所以公司大伙儿始终都很疑惑,为什么北京没有社区团购,难道北京人民不配享受这项服务吗?
同样的困惑也存在于北京的其他媒体老师身上,最近半年,社区团购的新闻几乎每天都能登上各大科技网站的首页,但是很多媒体老师都在吐槽,我们天天写,却从来没有真正体验过。 A Stacking Ensemble Model for Prediction of Multi-type Tweet Engagements. Wantely 的投稿[5]提出了一种预测 tweet 参与度的两阶段方法。第一阶段的分类器是轻量级的,只使用在不同目标(Like、Retweet 等)中通用的特征,并且具有相似的训练/测试精度。第二阶段分类器将轻量级分类器的输出与特定于目标的特征一起用作特征。 上游的通用模型生成下游模型所需的特征。作者认为,通过这样的方式,每种参与类型的下游模型都可以从所有其他参与的数据中受益。除此之外,除此之外,如 Nvidia 条目所示,本文通过对抗性验证直接评估训练和测试数据集之间的特征分布差异,从而确定了哪些特征是可通用的。 在所有提交的论文中,有许多相同的见解。我们重点介绍以下主题: 胜出模型中使用的有用特征—目标编码是王道。首先,目标编码(用目标变量的平均值替换分类变量)使问题变得更简单。它同时用于用户和作者 id,因此编码了用户的平均参与率。其次,使用了大量特征交叉[6]。 快速实验进行特征选择。快速检验许多假设的能力一直是数据科学竞赛中不可或缺的一部分,并再次证明在这一挑战中具有决定性作用。Nvidia 团队能够在 GPU 上运行整个流程。这让他们只需 2 分 18 秒就能训练出一个模型(包括特征工程),而在 CPU 上则需花费数小时。 通过对抗性验证来应对过度拟合。比赛选手常用的一种技术是建立一个判别器来预测训练和测试/验证集之间的差异。根据模型选择特征时使用的重要性分数,通过去除最重要的特征,可以帮助模型更好地泛化。此技术有助于避免训练数据过拟合。 上下文特征的使用。今年的数据集和之前的数据集的一个重要区别是我们提供的上下文特征。在三篇获奖论文中,有两篇对基于上下文特征的 BERT 进行了复杂的使用。NLP 中的深度学习方法已经证明了它对推荐系统的有用性,尽管我们认为在这个领域还有更多的改进空间。 决策树与深度学习。梯度增强决策树(GBDT)的一个显著优势是,无需对单个特征的尺度进行归一化和计算。这使得所有胜出论文的迭代速度更快。 在计算机视觉和 NLP 等领域,深度学习模型已经通过利用 CNNs 和 transfomer 展示了令人印象深刻的进展。基于这一挑战的结果,我们仍然不明白在推荐系统中什么构成良好的深度学习架构。我们呼吁研究界共同寻找推荐器系统的最佳深度学习架构。 我们也注意到,虽然我们只对提交的模型的性能进行了评估,但在生产系统中还有许多其他限制。对我们来说,延迟是一个大问题:模型需要在毫秒内对推文进行评分。在这种情况下,需要仔细检查集成方法的使用。集成中每一步的附加延迟都可能会导致它们对我们的目标来说太慢。 我们感谢所有参与者和我们的同事使这得一挑战成为可能。我们相信,发布大规模数据集将有助于解锁推荐系统领域的新进展。Twitter 现在比以往任何时候都致力于帮助外部研究,并且最近为学术研究人员发布了新的 API 端口,以帮助促进进一步的探索和合作。 [1] J. Pan et al. Adversarial validation approach to concept drift problem in user targeting automation systems at Uber (2020) arXiv:2004.03045. Introduces adversarial validation, a powerful technique used by several participants. [2] L. Belli et al. Privacy-Aware Recommender Systems Challenge on Twitter’s Home Timeline (2020) arXiv:2004.13715 provides the details about the challenge and the dataset. [3] B. Schifferer et al., GPU Accelerated Feature Engineering and Training for Recommender Systems (2020). Proc. Recommender Systems Challenge 2020. Nvidia’s submission, also described in their blog post. [4] M. Volkovs et al., Predicting Twitter Engagement With Deep Language Models (2020). Proc. Recommender Systems Challenge 2020. Learner’s submission. [5] S. Goda et al., A Stacking Ensemble Model for Prediction of Multi-Type Tweet Engagements (2020). Proc. Recommender Systems Challenge 2020. Wantely’s submission. [6] The full list of features with importance for different objectives like Retweet/Reply is available in the appendix of the Nvidia paper.
AI 研习社是 AI 学术青年和 AI 开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为 AI 学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。 (编辑:周口站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
