解析今日头条的内容推荐服务

Abstract:今日头条以推荐算法为引擎在内容领域表现强劲,且其产品从单纯的新闻客户端演变成较大的产品矩阵,内容结构不断完善,可见头条正向综合性信息媒体平台方向发展,甚至其可能更大的野心是做未来互联网的入口。不过,从前坚持“算法至上”的头条,在经历被人民网点名批评和“约谈”后开始采取多项举措力图解决其平台上色情低俗内容泛滥的问题。至于这些举措的效果如何,且待时间检验。

1.今日头条的内容推荐服务

今日头条以用户建模为基础,以推荐算法为引擎,以海量数据为依托,以头条号作者和后台强大的爬虫爬取的海量内容为内容源,并通过机器学习感知、理解、判断用户的行为特征(如用户在新闻客户端的滑动、搜索、查询、点击、收藏、评论、分享等动作),综合用户具体环境特征和社交属性来判断用户的个性化兴趣爱好,从而为用户精准推荐个性化的新闻资讯,塑造千人千面的阅读场景。

2.头条产品矩阵与其内容推荐服务

头条产品矩阵

近几年,通过拆分为不同产品的方式,今日头条已由当初单一的新闻资讯客户端往综合信息媒体平台发展,俨然已形成一个头条产品矩阵,多路出击“围剿”各大相关互联网产品。头条产品矩阵涉及的内容领域包含:

  • 新闻资讯:头条客户端主打泛阅读,敌对天天快报、一点资讯等产品;头条极速版主打极速精选阅读,敌对相关精选类阅读产品;
  • 社交媒体:微头条敌对微博,主打阅读场景下的社交(自2017年4月上线已吸引不少明星名人大V入驻);
  • 短视频:抖音(音乐短视频)、火山小视频(UGC的短视频分享平台)、西瓜视频(PGC的视频新闻)都是国内短视频领域的佼佼者,直接对手为小咖秀、美拍、快手等;
  • 问答:悟空问答在问答类产品领域也发展迅猛,且用户下沉做得好,主要对手是知乎;
  • 直播:头条直播,对标各种直播产品

从这快速构建起的头条系产品矩阵可知,头条的野心很大,它想做的不仅是新闻客户端,更可能是如微信、搜索引擎一样做未来互联网世界的入口。而这整个体系的核心和引擎是头条强大的内容推荐系统,其所有产品都应用了头条引以为傲的推荐系统框架来精准把握用户个性化需求,也许正因如此头条系产品才能在极短时间内迅速获取大量流量、跻身各内容领域的前列。

头条系产品的内容推荐服务的结构有几个特点

  • 内容生产层面
    • 内容类型丰富且不断拓展:新闻、小说、内涵段子、摄影,等等(丰富的内容配合精准的个性化推荐系统,从而精准定位和充分满足用户需求)
    • 内容形式多元且不断拓展:文字、短视频、直播(一方面头条客户端可为各头条系产品引导流量,另一方面这些产品也可不断为头条输送新鲜内容)
    • OGC+PGC的内容生产模式持续制造内容源:制作者内容生产门槛低;强大的数据爬取能力使头条获取到海量内容资源
  • 内容分发层面
    • 强大的推荐系统使内容被精准分发:一方面通过用户初始信息和用户在头条系产品中的内容消费记录构建精准的用户画像模型;另一方面基于推荐引擎将内容推送给可能对之感兴趣的用户
    • 在传统内容分发渠道上增加社交分发渠道,使内容分发能力和内容对用户的吸引力更强:在微头条板块,用户关注的大V的动态会被推送给用户,且用户可从大V评论的内容链接跳转到源内容
  • 内容阅读场景
    • 增加社交阅读场景:通过微头条,用户可与关注的明星名人和内容创作者进行互动

3.今日头条的推荐系统

推荐系统是今日头条的核心引擎,其本质解决的问题是用户、环境和资讯之间的匹配,其实质是一个拟合用户对内容满意度的函数,这个函数是$y=F(x{i},x{u},x_{c})$,其中包含3个维度的变量:

  • $x_{i}$ (内容):内容形式多元化,不同内容的特征也不同,需要考虑怎样提取不同内容类型的特征做好推荐
  • $x_{u}$(用户):怎样提取用户特征
  • $x_{c}$(环境):用户在不同场景下的信息偏好不同

其中,这三维度的变量分别被设定了一些不同的用来描述变量的特征:

  • 用户特征:兴趣,职业,年龄,性别,机型,用户行为
  • 环境特征:地理位置,时间,网络,天气
  • 文章特征:主题词,兴趣标签,热度,时效性,质量,作者来源,相似文章

结合这三个维度,推荐模型会给出1个预估:预测推荐内容在这一场景下对用户是否合适。此即头条的推荐系统的基本原理。

头条系的所有产品都是沿用这同一套强大的算法推荐系统来做内容推荐服务的,不过根据业务场景不同,各产品的模型架构会有所调整。

4.今日头条的社会责任履行情况

今日头条的社会责任履行情况如何,主要体现在其作为一个公众媒体平台是否肩负起了媒体应承担的社会责任,即内容质量问题。我将这个内容质量问题分为几个维度:

  • 传播的内容类型是否健康、安全、有益?
  • 传播的价值观是否正确?
  • 传播的内容质量是否达到合适的需求标准?

我们可以从已/正在完成、未完成两方面看今日头条的社会责任履行情况。首先是已(正在)履行的责任。就已履行的责任,主要为四方面:

一是严格的风险评估

据今日头条官方说,其成立之初即专门设有审核团队负责内容安全,当时研发所有客户端、后端、算法的同学一共才不到40人,头条非常重视内容审核。

下图是头条的风险评估流程:

头条的内容安全

今日头条的内容主要来源于两部分,一是具有成熟内容生产能力的PGC平台,一是UGC用户内容,如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直接下架。

二是开发风险内容识别技术鉴别不良不优内容。

头条在风险内容识别技术上也做了一些努力。他们为了开发鉴别色情图片的鉴黄模型,构建了千万张图片数据集,通过深度学习算法(Resnet)训练,最新的召回率为99%。对于鉴别低俗内容的低俗模型,他们对文本和图片同时分析,且对文章和评论都做低俗识别,最新的召回率为90%+,准确率为80%+(低俗模型更注重召回率,可牺牲一定的准确率)。为了净化评论氛围,他们开发了鉴别谩骂言论的谩骂模型,样本库超过百万,最新召回率达95%+,准确率80%+。

除了风险内容识别外,头条还研究泛低质内容识别技术,开发了低质模型,通过对评论做情感分析,并结合用户其它的负反馈信息(举报、不感兴趣、踩)等信息,来解决很多语义上的低质问题,诸如题文不符、有头无尾、拼凑编造、黑稿谣言等。目前低质模型的准确率为70%,召回率为60%,结合人工复审召回率能做到95%。

三是引入人工干预。

以前头条给人的印象一直是算法至上。在人工编辑和运营与机器算法之间,坚定地站在机器算法一侧。如今,头条已经大动作开始引入人工干预,不仅设立了总编辑岗位,还组建了数量可观的内容审核团队。这表明今日头条在逐渐偏离“算法至上”理念,往算法推荐+人工干预方向靠拢。

2017年12月今日头条被发现传播色情低俗信息,而后12月29日被北京市互联网信息办公室约谈后今日头条开始全平台整顿,包括关闭社会频道,将新时代频道设置为默认频道,集中清理涉嫌违规的含低质内容的自媒体账号,共封禁、禁言账号1101个。同时,2017年 12月29日18时至12月30日18时,今日头条手机客户端的“推荐”、“热点”、“社会”、“ 图片 ”、“问答”、“财经”等六个频道还曾暂停更新24小时以便整顿。内容低俗、算法推荐遭狠批后,今日头条今年计划再招聘2000名审核编辑;目前今日头条已建立了国内最大的审核编辑团队,人数超过4000人,且据称头条的内容审核编辑人数预计很快突破10000人。

四是打破黑箱、公开算法。

2018年1月今日头条首度向社会公开其推荐算法原理,主动打破了其算法技术的黑箱,从而可以让用户参与到对算法的检视中。

五是采取举措扭转社会大众对今日头条内容低俗的印象。

2018年3月28日今日头条发布了一款名为“灵犬反低俗助手”的小程序,基于今日头条反低俗模型开发出的。功能很简单,用户输入一段文字或文章链接,即可检测内容健康指数。这个小程序一发布我就进行了几轮测试,测试后发现这个反低俗模型的准确率比较低(也许和测试样本数量太少和样本种类有关)。但实际上这个产品的实际用户需求和使用场景是很少的(它的设计初衷也不是为了用户需求而设计),它所承载的主要是头条的“政治意义”,即作为今日头条使用人工智能技术识别低俗的展示窗口。这个展示对象,既有社会大众,应该也有政府。今日头条想让社会大众和政府看到它反低俗的决心,扭转大家对今日头条内容低俗的印象,我想这才是头条设计这个小程序的初衷。

尽管今日头条已经在履行一个有影响力的媒体该履行的社会责任,但毕竟才刚开始,它的内容服务上仍存在一些问题:

第一点,虽然今日头条在不断强化人工干预权重,但实际内容分发效果并未得到明显改善,用户抱怨低俗化的声音仍不绝于耳。今日头条去低俗化是场硬仗,短期内难见成效,头条仍得再接再厉。

第二点,还未实现内容推荐的真正智能。现在头条的内容推荐仍是内容分发的绝对控制和定向的广告贩卖。但实际上,高质阅读需求的用户想看到的是高质量的内容,能带来更多的知识收获和眼界的开阔,而不是仅仅靠捕捉用户兴趣、迎合用户喜好的内容。

5.对头条色情低俗内容泛滥的原因分析和方案建议

头条平台上的色情低俗内容泛滥的根本原因是纯粹算法推荐和没有建立严格的内容审核机制。一方面,色情低俗内容因其猎奇性、感官刺激性故容易吸引人眼球,获得较高的用户点击率,于是这类文章在推荐系统中的热度就高、推荐值也高,所以容易被算法推荐。另一方面,头条之前坚持“算法至上”,平台没有或没有设置足够的人工编辑去审核内容,也没有严格的内容审核机制,于是放任“纯粹算法推荐”的结果就是色情低俗内容泛滥成灾,污染视听。

那么头条如何才能解决这个问题呢?实际上就如上文讲到的,头条近几个月来已经和正在采取相关措施解决这个问题,包括建立严格的风险评估机制,开发风险内容识别技术鉴别不良不优内容,引入人工干预,以及打破黑箱、公开算法。至于这些举措的效果会如何,且待时间告诉我们答案。

除了头条的措施外,我还想提两个建议:

1.建立用户举报机制:海量的内容对有限数量的编辑来说审核难度比较大,且难免会有疏漏,不如让广大用户发挥“火眼金睛”一起发现并举报色情低俗内容,然后头条平台及时采取删稿或封号等举措。

2.研发审稿机器人技术:审稿机器人的计算能力和速度是人类所无法比拟的,也适宜处理海量内容的审核工作。

最后,我想说,企业的本质目的是盈利,这无可厚非。若以优质文化产品取胜,是健康的产业模式。但若通过兜售低俗内容给消费者,就是不负责任的行为。算法推荐赚取巨大流量红利的同时,我们确实应该反思这种创新能给社会带来怎样的进步。如果新的媒体平台,只是为了让低俗化、媚俗化、娱乐化的信息更加便捷传播,如果新的技术,只会降低人的思考能力和审美水平,这样的媒介形态和产品创新必将在社会发展中被淘汰。今日头条作为现在中国最大的新闻资讯分发媒体平台,在获得名声、流量、利润的同时,也应承担起媒体所必须承担的社会责任

拿钱去买猫粮和狗粮嗷 ~