你不知道的内容生态推荐算法

前段时间想勾搭一个潜在的候选人,聊到内容生态这个方向,候选人说到这个方向是不是太偏了,很气。所以这篇文章想聊聊内容生态这个方向,一方面给大家简单介绍一下这个方向在干啥,另一方面如果大家对这个方向有兴趣,也欢迎随时找我(wx: fengchi_dong)聊,算法当然最好,产品运营同学也欢迎交流。

之前有其他同学找我聊的时候提到过这个方向比较难招人,没想到自己上手招了之后才发现是真的难招。

好,废话不多说,开始进入正题,我们先聊聊内容生态这个问题是怎么来的。

品牌的诞生

不过,我们先来回顾一下历史,先跟大家聊一聊品牌是怎么诞生的。

世上本没有品牌,直到19世纪60年代,这个时间点发生的事情是工业革命。在工业革命之前,世界的生产是小作坊式的。小作坊式生产的问题是,规模很难扩大,产品本身也是非标准化的。那时候有“老字号”的概念,如果大家知道是谁生产的,他大概率是足够好的。但是没有形成明确的品牌,因为没必要,影响范围到不了那么远。因为都是小作坊,大家生产的东西也不太一样,所以从购买源头就能区分质量的优劣。市场环境整体是供不应求的。

但在工业革命开始之后,标准化大规模生产渐渐开始兴起,技术的进步极大地提升了生产效率,造成的结果是生产出来的商品开始出现了同质化,不同商家使用相似的技术生产出来的商品是类似的。同时因为生产效率的提升,产品开始远销,真正使用这个产品的人已经不再知道生产者是谁了。所以这时候就需要有一个标志,把自己的产品和其他人生产的类似产品区别出来,用来作为质量和品质的象征和保证。

1867年,宝洁是第一个这样行动的公司。最开始是在存放自己货物的帆布上打一个明显的标志——一个极大的圆圈和一些星星。随后,这些被打了标志的商品得到了消费者的认可,因为消费者发现打了这些标志的商品品质比其他没打的好一些。这些被打了标志的商品被迅速一抢而空,销售时间从一天缩短到了2小时。后面这一举措也被其他公司模仿。再后来这个过程体系化了形成了今天众多的品牌。

所以总结一下,工业革命后,技术的革新带来了生产效率的提升,但会导致同质化的竞争,品牌是解决这个同质化竞争的出路,而品牌的核心是关注用户需求和差异化竞争。

说回到当前的这个时代。当前我们所处在的时代是,人工智能深度学习算法大规模在生产环境的应用,极大地提升了一些体验,造就了比如今日头条、抖音这样的信息流推荐产品。

但当前行业内大家都知道的秘密是,之前对用户体验影响最大的效率提升,比如点击率,时长这种直接影响效率的指标的提升,已经变得相对困难。当然还在发展(还是有提升),但可能没有前五到十年那种代差式的巨大提升,所以也间接导致了互联网这个行业没有前五到十年那么热。不过这是另一个问题,我们先不在这里展开了。

因为技术发展趋于缓和,各大互联网公司的技术架构本身也趋于同质化,表现就是各家公司推广搜的技术栈都是极端类似。那么从用户的视角看这个事情,就是各家生产的推荐系统,从各种角度来说,好像对我来说都差不多,那我好像用哪个也都差不多。所以增长也相对放缓了。

所以摆在成熟产品面前的,现在的问题就变成了,如何能够在同质化的产品竞争之中脱颖而出呢?

根据前文的经验,我们现在应该做品牌,提升用户体验,做差异化的竞争了。

内容平台的差异化竞争

那这里新的问题就是,作为一个内容平台,怎么可以做差异化,怎么可以形成自己的品牌?

我们来看内容平台能控制的有什么:

用户,是平台想争夺的,自然不是平台控制的。内容,现在的内容都是作者生产的,作者也是用脚投票不太受平台控制的。平台唯一能控制的,就是内容分发的逻辑。

内容分发的逻辑,就是这个平台的内容分发规则:什么样的内容能够在这里有流量,而什么样的内容没有。通过控制这一套规则,给平台偏好的内容更多的流量,而平台不喜欢的更少的流量。结果是,这一套逻辑吸引到了为它买单的用户,用户用脚投票投出了这个平台代表性的内容,而这些内容的集合或者在用户心中留下的印象,最终形成一个内容平台的品牌认知。

每一个内容平台品牌,大家在想到这个品牌的时候,都会想到这个代表性的内容:比如抖音,会有抖音代表性的内容;B站,会有B站代表性的内容;知乎,会有知乎代表性的内容;小红书,会有小红书代表性的内容等等。凡此种种,背后都是因为这个平台有独特的内容分发的逻辑,给予这些代表性的内容更好的流量,最终让用户形成了一个独特的内容平台的品牌认知,进而实现进一步的增长。

而这一套流量分发机制应该如何设定,需要从以下几个方面考虑:

①这些内容在什么样的容器分发。同样的内容,在不同的产品容器下,也会给人不一样的体验,比如是以抖音为代表的沉浸式的视频播放体验,还是以小红书为代表的双列筛选逻辑。基础的产品逻辑是什么,需要以产品同学为主进行思考。不同的容器,需要的算法逻辑也不一样,所以这本身也会影响内容分发的算法逻辑。

②这些内容应该如何生产出来。这部分逻辑是以运营逻辑为主的,比如当前站内缺少什么样的内容,这些内容的作者在什么地方,可以通过什么方式联系到这些作者让他们可以在这个平台发一下,补齐平台缺少的这部分内容。以及有哪些玩法是作者和平台方可以一起玩起来的,因为独特玩法带来的爆款内容也会形成特色而出圈。另外,还有一部分逻辑是靠产品功能实现的,比如让更多的用户开始使用这个平台开始创作,创作的基数大,就可能会有更多有意思的内容,大浪淘沙。

③这些内容应该怎么更好的分发出来,也就是内容怎么样有更好的流量。这部分我们统称叫做内容生态。这部分逻辑自然是推荐算法最擅长的,也是更应该做好的。但是这里推荐算法要考虑的问题,与通用推荐技术的迭代,比如目标是数据指标(比如点击率)的提升,又不是同一个问题了,这个我下文再展开。另外,除了数据驱动迭代之外,这里如何引入人的判断因素,比如让运营对内容质量有更好的判断,各家平台做法都不一样,这也是一个在落地的工作中需要考虑的问题。

总的来说,为了让一个内容平台能够形成自己独特的品牌认知和价值,就必须产品运营和算法通力合作才能解决这个问题。

再往大了说,这其实是每一个技术进步产生之后都会面临到的问题,从技术突破,怎样转化为品牌认知和创新。

如果当前大家所在的行业已经经历了深度学习带来了技术变革,技术本身带来的效率提升放缓之后,这个问题就是一定会面临的。

而这个行业如果没有经历这种技术变革,技术的提升还可以大幅度的改善现状,这时候做模型还可以带来比较大的增长。

这可能有两种情况:一种情况是,你确实发现了大家都没发现的盲点,或者说你对未来的预判无比正确,比如12~16年的今日头条,或者今天正在用新的技术颠覆的行业或者赛道,这种机会是可遇不可求的。

另一种情况是,可能当前技术本身面临的问题是复杂的,是比较难以突破的,需要更长时间的投入和更多的耐心,比如可能是今天的电动车或者元宇宙。

总结一下,如果一个内容平台想形成自己独特的品牌,就必须要重视自己的内容生态,那就需要一些for内容生态的推荐算法工程师。下文我们就介绍一下,内容生态的算法,和传统的模型迭代的推荐算法,关心的问题有什么异同。

传统模型迭代和内容生态视角推荐算法的异同

上文我们留了一个小问题,如果是从做更好的内容生态,更好的内容平台品牌的视角看,迭代这个推荐算法和传统的效率优化的推荐算法有什么区别。

我们这里定义的,传统模型迭代的推荐算法,主要是模型优化指标的提升,而进行的迭代。通常通过优化召回精排混排各个阶段的机器学习模型达到指标的提升。为了方便行文,我们用大家最喜闻乐见的一个指标,就是点击率来统称吧。传统的技术迭代,就是我用更好的模型,比如新加特征,或者新的模型结构,或者一些辅助loss的应用等等,得到了一个预估更准确的模型,反应在结果上就是用户后验的点击率的提升,那就是一个好的模型迭代。

但是点击率的提升,对一个内容平台来说,一定是好的吗?

答案是否定的。因为点击率过高有可能是标题党,有可能是虚假,有可能是低俗,这些内容会非常吸引用户点击,但是可能用户看完了之后并不满意。可能会有短期虚假的指标提升,但长期来看对一个平台来说一定是负向的。

事实上也确实有一个公司曾经这样做过。之前有一款产品叫做“趣头条”,巅峰期的日活也有四五千万,在18年的时候也赴美上市,是一款红极一时的App。需要注意的是这个公司和今日头条以及字节跳动没有什么关系,是一家单独的公司。这家公司的玩法就是,不在乎内容质量,靠极端的点击率来排序;靠金币买来用户、留住用户,让他们在平台消费这些质量很差的内容,赚取广告收入。结果是,2022年,这个平台已经不复存在了。

那为什么会出现这种情况呢,可能的原因有以下两点:

一、用户行为并不总是纯净的,会被一些创作者hack。在我们这个场景下就是,用户的点击,虽然大多数情况下是喜欢这个内容,但还有少部分情况是被标题封面欺骗了。模型在目标结果不纯净的情况下,是一定不能帮助我们达到目标的。但问题在于,模型是无法区分用户到底是因为喜欢还是被欺骗,因为模型学到的就只有点击行为。机器学习界有一句俗语叫做,Garbage in,garbage out,如果目标本身就是不够准确的,模型的效果自然与我们想要达到的目标会越来越远。这实际上也是推荐系统,相对于广告系统来说更难的地方。

二、靠内容审核能不能解决上述的问题呢?事实上是很难做到的。我们看到,各个以算法分发为主的内容平台,都会有自己平台的“流量密码”,大多数流量密码是擦边的,令人反感的。那这些内容为啥审核干不掉呢?我来画一个最简单的示意图。

内容质量和流量的关系

我们在这个图中可以看到,如果横轴是内容质量,纵轴是流量。在每一个内容平台自由的“流量密码”的裹挟下,平台上的生态可能是一条斜向上的线:即质量更低的内容因为掌握了流量密码而获得了更好的流量。当内容平台引入审核机制的时候,即是这条蓝线,它能做的只是让质量最差的那部分内容没有流量。而这部分因为审核空余出来的流量,会让平台的流量向左上角移动。我们发现,当出现了这样的移动的时候,流量最受益的是那些擦着审核边的内容。也就是那些你觉得很恶心,但又说不上来他们哪里有问题的内容。如果你再收严审核标准,也会有新的一批擦边恶心的内容出来。而我们期待的生态应该是下面这条红线:

理想的生态结构

这个问题究竟要怎么解决,这就是从生态视角考虑推荐系统和从模型优化视角考虑推荐系统最大的区别。

为了解决这个问题,我们需要从各个角度思考这个问题。比如:

①可能需要更好的UI来让用户进行更纯净的表达。一个最直观的例子是,各个内容平台都有点赞的功能。但点赞究竟应该用什么样的样式来表达呢?比如有 (大拇指),也有❤️(爱心),这两种,从模型的目标上来说是完全一致的,都是是否点赞,但是在用户实际的表达过程中是否是一致的呢?一个更纯净的目标就可以帮助机器学习学到更准确的信息,那在应用过程中就自然事半功倍了。

②各种不同的用户行为,都其实是用户某种偏好的表达,这些用户行为之中,如何能够去粗存精,找到用户那些“真信号”呢?我们如果可以找到这样的用户行为,那进行推荐建模,就可以调整我们推荐系统的流量生态。在这个过程中,我们优化的目标就不再是点击率本身了,那应该如何度量当前的策略有没有做对呢?

③内容生产的角度。每一个内容平台都希望有一些原创的独家内容,靠这些内容出圈,带来DAU的增长。那这些原创的独家内容如何生产出来呢?在这个过程中会遇到哪些问题呢?我举一个最简单的例子:每一个内容平台,都会面临着一个问题是,会有自己的原生的内容创作者,也会有一些其他平台的成熟创作者来这个平台把自己的内容同步一份。这两种内容创作者势必会因为流量而互相竞争。那作为平台方,我们怎么看这两种创作者之间的互相竞争呢?这个问题有点类似,两国出现竞争的时候,本国生产的产品和外国生产的产品之间,应该用一个什么样的态度来看待呢?如果外国产品被消费过多,是否会导致本国的生产能力自此一蹶不振呢?

以上只是我列举的,在做内容生态的过程中会遇到的诸多问题中的几个最容易想到的几个问题。事实上,因为在这个事情上,现在还没有明确的方法论,各家公司也都是在探索的阶段。问题多种多样,每天都有新问题。最明显的表象就是,即使是成熟的内容平台,每隔一段时间也都有一些令你有一点反感的流量密码——比如小红书的字节工牌照,炫富倾向等等

就像我最开始说的那样,针对这个问题每家公司的解法都不一样,有的重运营,有的重算法。但无论怎样,现在都还未有定数,现在这个方向都是一大片需要被探索的开阔地呀。

整体来看,我个人的看法是,如果全局视角看技术本身如果不发生太大的迭代,各家公司在技术处在统一水平线上,或者技术迭代已经超过了用户能够感知的范畴,决定一个品牌是否能够被更多的用户记住,就已经不再是技术强弱本身了,而是技术外化到产品上,对一个内容平台来说,就是这一套分发逻辑能让用户感受到的鼓励什么而不鼓励什么,对用户心智的塑造了。

当然在这个过程中,技术迭代本身也是重要的。如果能够有更好的效率,或者更扎实的技术,让整体的系统实现全局的帕累托改善,比如全局提升了5个点的留存,或者用户消费更多带来的10个点的广告收入的提升。那改善的这一部分增量,就又可以拿出来,做更多更好的品牌和内容生态上的探索。比如可以花更多的钱砸更多的广告,或者补贴创作者,最终达到商业层面竞争上的胜利。

以上就是我想表达的,关于内容生态这个算法方向,到底在研究些啥这个问题。市面上大多数的算法同学可能对这个问题并不太了解,我自己目前的体感上看,市面上供给量比较大的算法人才,还是以做模型迭代优化为主的。所以我写了这样一篇文章,希望能够给大家带来一些增量信息。也欢迎这个方向有经验的同学多勾搭多交流~

当然如果是做算法的同学,算法优秀是底子,有了算法基础后续才有更进一步的空间。这一点,对于那些现在还在打基础的同学,也不要眼高手低,做好自己的本职工作,这种问题可以抽时间关注关注想一想hhh,或者收集一些相关的信息,比如关注一下峰池的微信公众号哈哈

我是峰池~欢迎你的留言交流和关注呀~

    THE END
    喜欢就支持一下吧
    点赞9 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容