笔者结合自己的项目经验,分析了内容app是如何对文章进行分类和标记的?2017-18年底,我参与了一个信息内容兴趣偏好标注的项目。荷兰电话号码列表 什么是内容兴趣偏好标签?简单来说就是分析用户喜欢阅读的文章类型,得到用户的兴趣爱好。在此基础上对用户进行个性化推荐和推送,有效促进APP活跃度,延长用户生命周期。这实际上是一个两步的过程:一是对文章进行分类,也就是我们通常所说的打标签文章。二是给用户打标签,荷兰电话号码列表 即用户阅读过哪些类型的文章,并相应得到自己的兴趣偏好标签。例如,如果我喜欢阅读有关科技的文章,那么我很有可能被贴上科技信息的标签。整体流程如下;那么在实践中真的那么简单吗?这两个看似简单的步骤是如何完成的呢?
首先说一下文章分类因为这个项目,笔者看了很多竞品app的文章分类,发现基本都是一样的,但是在细节上也有一些区别.更多的问题是信息文章的分类难以穷尽。我们参考市面上已有的分类,结合一些资料,制定了一套完整的内容兴趣偏好体系。荷兰电话号码列表 在指定分类时,我们遵循MECE原则,基本上做到了相互独立和完全穷举。接下来,我们要对文章进行分类,荷兰电话号码列表 我们采用分类算法的监督学习。理想情况下,流程应如下所示: 但是,在实践中,存在两个问题。既然选择了监督学习,就面临着提供标注样本基础的需求。样本的获取一般有三种方式:第一种是人工标注文章。优点是准确,缺点是效率低。
对于需要大量样本的算法,荷兰电话号码列表 成本非常高。另一种方法是通过一些开源网站提供的关键字来训练模型,例如从搜狗词库中获得的关键字。导致分类不够准确,后期需要大量的人力进行修正。 第三种方式是配合一些信息类APP获取他们的文章和分类作为样本。比如目前做的不错的有今日头条、uc等都是不错的选择。当时我们其实也试过了(苦涩的眼泪一把)。拿到样本后,就是算法模型的训练和测试。算法模型的训练原理是对样本文章进行切分,荷兰电话号码列表 提取实体,建立特征工程,将每个特征词作为向量拟合一个函数。这样,当有新文章出现时,文章会通过分词,并由模型计算结果。但是,模型不能靠单个样本准确,需要对模型进行测试和修正。一般测试流程如下: