很抱歉,当前没有启用javascript,网站无法正常访问。请开启以便继续访问。字节跳动,以算法推动的媒体进阶之路_资讯_鲸平台
字节跳动,以算法推动的媒体进阶之路
2020.07.22 13:35 陈俊峰
数据已经成为了媒体机构骨血一般的存在,包容了一切能够相联、互动的新技术,开始进入智能化阶段。

*个性化:重新定义人类连接和共享信息的方式

*媒体生态:数据赋能“算法分发内容”发展模式


按照互联网媒体的流量逻辑来看,字节跳动的核心竞争力来源于产品矩阵所形成的众多流量入口。而这些产品所依赖的基础之一则是字节跳动的数据技术实力。当然,字节跳动的媒体进阶之路并非一路坦途,其核心产品今日头条屡屡因“个性化推荐”遭受过各种质疑,可谓成也数据、败也数据。当下,字节跳动不但想要成为国内比肩BATJ的超大型媒体集团,也想在海外市场上打下自己的一片天空。在这份雄心壮志之中,数据技术扮演着怎样的作用?

个性化:重新定义人类连接和共享信息的方式

今日头条是字节跳动个性化推荐技术成功发展的起点,也为字节跳动积累了最早的数据资产,成为字节跳动媒体进阶的源头。伴随着媒体版图的扩张,字节跳动的一项底层战略就是打通内部的数据体系,将头条上积累的以个性化推荐为代表的数据技术迁移至多个产品业务线中。为此,字节跳动从部门结构优化开始,针对不同的产品属性和媒体形态,构建合理健康的数据、技术体系的同时,也构建了对内、对外的发展逻辑。

 1 流量与算法并举的发展逻辑

今日头条从内容资讯App起家,之后做搜索引擎对标百度、开放头条号与微信公众平台抗衡、入侵微博和知乎领土、打造短视频“三驾马车”包抄快手,这个发展其崛起的背后有两个重要原因,一是流量红利,二是算法精准。
首先,今日头条为字节跳动积累了最初的数据基础,也打下了最初的流量入口。今日头条从上线起仅用3个月日活就达到了100万,2015年直接成为了仅次于腾讯新闻的全国第二大客户端,快速地积累了用户数据。正是基于这批用户数据,字节跳动进行了机器训练,形成算法模型支持对用户兴趣的精准描绘,实现了在用户登陆5秒内解读兴趣,10秒内形成用户画像并推荐内容。同时,这批数据也使今日头条也成为了字节跳动众多新产品的首批流量来源。将流量连接到具体的、高频使用的应用场景,将帮助字节跳动完成C端变现的转化,而不只是担任流量的中间商。
其次,今日头条通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,这不但开创了一种全新的新闻阅读模式,也成为后续业务和产品拓展的技术逻辑。简单来看,今日头条的个性化推荐技术系统主要是通过输入用户、环境和内容三方面的数据来拟合一个“用户对内容的满意度函数”。根据计算出的“满意度函数”,今日头条会通过爬虫快速抓取出符合用户兴趣的内容,并向用户进行推荐。这就意味着,用户的行为信息必须要被今日头条的推荐系统快速捕捉。
为此,今日头条基于已有的用户数据对个性化推荐系统中的计算模型进行实时地训练,以提高推荐的效率。基于不断成熟的个性化推荐技术,今日头条迅速为字节跳动打开了媒体市场,并为字节跳动旗下的其它产品的孵化与发展提供了基础。没有一套通用的模型架构能适用所有的推荐场景,但西瓜视频、火山小视频、抖音短视频、悟空问答,都在使用今日头条的推荐系统。足以看出今日头条的推荐系统对字节跳动整个公司的重要意义。
为了更好的实现流量和算法的迁移,字节跳动开始考虑调整组织架构,希望按照自身的逻辑来开展新业务,将新业务扩张建立在大数据与智能技术之上,根据对数据的算法分析,来为用户生产分发产品。
一方面,字节跳动建立了增长中台,以实现技术与数据的高度复用。增长中台能为字节跳动的技术研发、数据工作提供统一的支持,并将中台研发的技术直接运用到各个产品当中,在中台中还有独立的算法组,能以统一的标准直接负责字节跳动所有产品的搜索和推荐工作。字节跳动通过建立中台,最终把海量数据和强大的技术能力转化为了字节跳动的基础设施。

https://img.cls.cn/riskflow/image/H9FBz3XfI4.png

另一方面,字节跳动为了更好地支持个性化推荐技术的研究,扩展AI技术实力,在2016年还自建了人工智能实验室(Bytedance AI Lab),依托字节跳动的海量数据,专注于开发为字节跳动内容平台服务的创新技术,并将研究成果应用于今日头条的产品中,利用人工智能帮助内容的创作、分发、互动、管理。同时,实验室也将针对人工智能相关领域内长期性和开放性问题进行研究,帮助公司实现对未来发展的构想,促进人类信息与知识交流的效率与深度。

“重新定义人类连接和共享信息的方式,即个性化”是实验室成立的初衷,也让我们看到,字节跳动自始至终,都将个性化推荐作为用户服务的重点,也是进行多样态产品整体分发、流量互引和运营的基础逻辑。 

数据与技术共享的内部生态

字节跳动以今日头条为基础构建了个性化推荐技术、沉淀了海量的用户数据,并通过中台实现了对数据和技术的复用。这为字节跳动以今日头条为基础陆续孵化西瓜视频、火山小视频和抖音三款视频App、占领不同的视频业务细分市场提供了重要支撑。目前,这三款视频产品在共享今日头条的数据和个性化推荐技术的同时,也结合各自的产品场景对个性化推荐技术进行了升级创新。

其中,西瓜视频和火山小视频分别源于今日头条内部的头条视频和头条直播,因此这两款视频App直接共享今日头条的用户标签,并通过头条引流,逐步提高用户流量。同时,西瓜视频、火山小视频不仅利用了今日头条个性化推荐技术,还提供了海量视频数据支持字节跳动的个性化推荐技术在图文分析的基础上增强视频分析能力,以更好地进行视频分发。
同样,衍生自今日头条的个性化推荐技术也直接支持了抖音的孵化。抖音依靠今日头条、西瓜视频等字节系产品进行用户导流,并共享了字节系产品积累的数据标签与个性化推荐技术,因此抖音上线时就具备了比较扎实的数据和技术基础,迅速成为短视频领域的爆款产品。并且随着抖音的不断成熟,其开始在数据导流方面反哺字节系的其他产品。比如,2020年1月抖音将火山小视频并入,以带动火山小视频的发展。
正如前文提及的那样,字节跳动在视频领域的产品虽然都是用的是今日头条的推荐系统,但会进一步根据业务场景的不同对推荐模型进行相应的调整。比如,不同于今日头条爬虫抓取并进行分发的推荐过程,抖音的推荐系统更侧重于使用“流量池”以进行递层级的推荐。抖音的流量池主要分为三个层级,分别是基础推荐量、进阶推荐量和高权重推荐量,抖音会根据用户上传内容后的所获得的数据量级(点赞、评论、完播、分享等的数量)进行“递进层级”的推荐,以扩大优质内容的曝光量。
通过数据和算法的共享、各类业务产品用户的相互引流,字节跳动实现了从图文的智能分发到视频的智能分发,也打下了为用户个性化信息连接和共享服务的重要基础。

从内容出发 通过技术解决推荐内容的合规性

早期,字节跳动曾因为侵犯媒体的版权问题陷入舆论漩涡,遭到多家媒体的起诉,也曾因风险内容与低质内容成为众矢之的,如字节跳动旗下的首款App内涵段子将就因内容质量问题被永久关停……这些危机都在倒逼字节跳动推出一套符合媒体运行的技术体系,以使个性化推荐技术规避推荐过程中的一些算法弊端。

首先,字节跳动必须保证个性化推荐技术下内容的合规性,其中,内容版权保护和内容质量审核是较为关键的组成部分。在版权问题方面,字节跳动采取投资合作与研发技术两种方式,以减少版权纠纷。目前字节跳动已与约1万家媒体达成版权合作,覆盖中央、地方和行业媒体,一定程度上减小了版权压力;字节跳动还广泛投资内容平台,以此减少版权摩擦。
另外,字节跳动还研发了CID(Content Identification)系统,应对视频侵犯版权的问题。CID系统所持有的技术手段可以帮助字节跳动检测其旗下产品中重复的内容,为每个视频生成特定的“内容指纹”,并与字节跳动正版库中的版权视频进行对比,由此来排除依靠抄袭而生成的信息。除此之外,字节跳动的全网监测系统还可以跨平台抓取出疑似抄袭的站外文章,帮助平台原创作者进行维权。
在内容质量方面,字节跳动开发了风险内容技术和泛低质内容技术,以提高推荐内容的质量。风险内容技术主要包括识别色情内容的鉴黄模型,对内容、评论进行评估的低俗模型,以及净化评论范围,识别不当评论的谩骂模型,目前,这三种评估模型的样本库都超过百万,能够有效地审查并退回不健康的内容;泛低质内容技术则通过用户的情感分析以及负反馈信息,来解决如题文不符、有头无尾、黑稿谣言等具有低质问题的文章。通过这两种技术,字节跳动能够在一定程度上避免推荐系统推荐的内容不过关的问题。

 4 从用户出发 加强算法洞察力,应对信息茧房

其次,字节跳动需要规整个性化推荐系统所带来的算法分发弊端,提高用户内容观看体验。众所周知,字节跳动取胜的关键在于“算法导向”,但是这也埋下了隐忧:用户看到的内容主要由算法主导,这就不可避免地带来“信息茧房”的问题。针对此,字节跳动不断地在提高算法的洞察力,使算法能够捕获到用户更全面的信息需求,以在一定程度上消除“信息茧房”。
在策略上,字节跳动主要采取消重和打散的方法。首先,字节跳动利用消重策略,减少内容的重复度。在海量数据训练支持下,字节跳动的推荐系统能够分析哪些内容讲的是同一件事情,或者同一个人,在进行择优推荐的同时会排除具有高相似度的内容,降低推荐内容的重复度;其次,字节跳动通过打散的策略以保证同一个方向或同一类主题的文章,推荐的频率不会太高。比如都是足球的文章,推荐系统就需要采用打散策略,避免用户在前端感觉内容的同质化,以提升内容的多样性。
另外,字节跳动还会留一部分比例的流量,探索用户的兴趣。比如在抖音中每几刷,或有一刷的位置就是探索用户的兴趣。除此之外,字节跳动引入“搜索引擎”也是规避“信息茧房”问题的一种方法。

 媒体生态:数据赋能“算法分发内容”发展模式

自2012年创立以来,字节跳动在内容创业、企业服务、教育培训、文娱社交等领域攻城略地,依靠“自建产品+投资”两轮驱动,迅速扩张版图,建立起了自己的媒体生态。这个生态体系不但为字节跳动打造了流量的护城河、数据的资源库,也为其带来了一套字节跳动的强账号体系,助力“算法分发内容”的发展逻辑。数据与技术赋能新业务拓展,成为字节跳动下一个发展阶段的重要方式。

 1 国内市场:独角兽的新故事

字节跳动基于个性化推荐技术在C端业务领域不断发展,其中搜索和游戏是两个重点。前者是希望通过打造一款搜索引擎,将散落在各款自家App的内容进行索引串联,旨在更加全方位地满足用户获取信息的需求;后者则是希望通过游戏的C端变现能力、社交属性和电竞潜力,为字节跳动提供了一个多层次的流量空间,推动流量的循环和沉淀。独角兽希望给资本市场将新的故事,而新故事的开场白,仍然是数据与技术。
2018年6月,今日头条正式上线“今日游戏”模块,标志着字节跳动游戏梦的开启。之后,字节跳动陆续在北京、上海、广州、深圳、杭州五大一线城市组建了游戏业务团队,收购了多家游戏公司以支持其在游戏业务领域的探索,截至2020年1月,字节跳动自建的北京游戏团队已经达到1000多人。
业界认为,字节跳动需要寻找到一种游戏类型,来将平台属性和游戏特性相结合,以此形成化学反映。字节跳动需要在不同的类型间进行试错,而算法会帮助公司加速这个过程。业界目前大多数游戏生产依靠的是创意和经验,人的因素远在算法和人工智能之上,而字节跳动却在尝试在数据与算法的支持下训练人工智能理解用户的游戏行为,并自动制造游戏,最终期待以人工智能取代部分游戏开发人员。这种逻辑和今日头条曾经利用算法代替采编人员,对新闻行业所做的改造有极大的相似之处。
2019年7月31日,字节跳动发布招聘启事,搜索团队浮出水面,并披露其目标是“打造一个用户体验更加理想的通用搜索引擎”。字节跳动则是将“个性化推荐技术”反向应用,并借助个性化推荐技术积累的用户数据,做个性化的搜索引擎。搜索本身的原理并不十分复杂,但其关键在于“优化”,如何权衡搜索精度、搜索性能、结果返回时间,乃至商业化体验等。而这些显然都离不开数据的支撑。

https://img.cls.cn/riskflow/image/362a3gU5Cl.png

目前,今日头条正在探索“猜你想搜”和“搜索预置”的能力,也就说在用户搜索之前,字节跳动的搜索引擎就能根据用户的兴趣提前为用户提供一批用户可能想要搜索的话题。另外同样是基于大量的用户数据,字节跳动的搜索引擎可以根据用户输入的关键词,更加精准地检索并展示出用户想要搜索的内容,让用户搜索到个性化的内容,最终优化用户的搜索体验。

此外,字节跳动在C端依靠着“个性化推荐技术”发展地相对成熟后,便开始利用个性化推荐技术的经验来服务机构用户。最顺其自然的,是针对广告主的服务。2016年,字节跳动推出了广告投放平台“巨量引擎”(Ocean Engine),整合了旗下所有产品的数据流量,为广告主提供数据标签、算法、产品设计,以及广告素材优化、广告销售等服务,以此来帮助广告主提升广告转化率。2019年,字节跳动跃升为仅次于阿里的中国第二大数字广告媒体商,其广告的程序化程度已达到了95%,成功实现了流量的第一轮变现。

https://img.cls.cn/riskflow/image/zgJ11D9m0y.png

与此同时,字节跳动也在积极拓展真正意义上的B端市场。2019年4月,以协同办公为切入口,字节跳动针对海外市场发布筹备近两年的企业办公套件产品 Lark,经过半年的试水与打磨,Lark以“飞书”的名字向国内市场开放;11月,字节跳动入股安防监控方案提供商踪视通,布局监控与移动安全领域;12月10日,字节跳动与澎湃新闻合资成立 “澎湃视听科技(济南)有限公司”,业务涉及区块链、人工智能公共服务平台、互联网数据服务等;12月14日,字节跳动入股无线网络服务商云智软通,后者以5G无线通信技术为基础,面向智慧工厂、智能制造为主的企业应用场景提供企业级无线网络连接产品和服务……

当然,字节跳动不会忘记自己在C端的杀手锏“智能推荐算法”。2019年9月,字节跳动旗下智能推荐系统——“灵驹”(ByteAir)被曝已对内部业务体系应用展开相关培训,定位是“全球领先的企业级算法服务提供商”。外部企业可以通过“灵驹”导入企业数据并进行数据分析,最终获得“千人千面”的推荐能力。是否能够成长为真正的B端爆款,我们拭目以待。

 2 出征海外:技术支持下的全球化布局

字节跳动在国内发展起来后,又将目光投向了海外。2020字节跳动CEO张一鸣直接宣布其将作为字节跳动全球CEO花费更多精力在欧美和其他市场,以完善全球管理团队。从字节跳动的海外发展战略来看,字节跳动出海坚持的是个性化推荐的技术内核不变,内容端根据产品特点做出部分调整,同时还会通过投资并购的方式扩充海外的数据,以优化在海外的推荐系统,不过字节跳动与其他出海的企业一样,也会遇到海外政府监管施压、民族差异等诸多问题。
字节跳动在海外发展的核心战略是“技术出海,本土化运营”,在国外的发展是对国内成功经验的又一次复制。字节跳动通过“复制”个性化推荐技术,对标国内今日头条、西瓜视频、火山小视频和抖音,分别在国外推出Topbuzz、TikTok、VigoVideo及 BuzzVideo四款产品,因此归根结底,字节跳动在海外市场也是依托个性化推荐技术做信息的匹配推荐服务。

https://img.cls.cn/riskflow/image/3YCiDr0wjt.png

为了更好地在海外发展,字节跳动通过投资和并购的方式,以更多地获取海外用户数据,并以此优化海外的推荐系统。比如,字节跳动投资了在印度下载量超过了1.2亿次,月活达2800万的新闻聚合平台 Dailyhunt;还收购了已在美国市场拥有超1亿用户,月活达6000万的Musical.ly;另外字节跳动控股了印尼的新闻推荐阅读平台 BABE,收购了北美短视频社区Flipagra及旗下新闻资讯产品News Republic等,也正是以这样的方式,让字节跳动在海外获得了较快的发展。

同样,字节跳动实现海外用户的留存后,也开始转向B端发力广告营销。对标国内的巨量引擎,字节跳动打造了面向海外市场的广告服务品牌Tiktok Ads,整合了字节跳动海外大部分产品的流量与营销能力,提供给广告主广告标签、数据、创意制作、投放等服务。并且Tiktok Ads在海外也取得了较好的成绩,据AppsFlyer2019年3月发布的《广告平台综合表现报告第八期》,TikTok Ads从去年综合排名第11迅速上升到第6,此外,TikTok Ads在印度市场增速排名为第2。

https://img.cls.cn/riskflow/image/7EdN5Fl7h9.png

在海外扩张时,受制于多方面因素的影响,字节跳动也面临着法律、民族差异、宗教信仰等多种问题。Tiktok就曾因内容审查不严、窃取儿童隐私、数据隐私、影响政治选举等原因,多次被美国、印度等国家“封杀”。

面对国外的监管施压,字节跳动主要采用两种方式来稳定海外市场。一是建立海外数据库,以保护海外用户的隐私,如字节跳动在2019年表示将在印度建立一个新的数据中心,储存当地用户的数据;二是将内容监督程序本地化,比如字节跳动在2020年将国内的“国际审核团队”解散,在海外重新创建审核团队,还在美国设立“透明中心”与内容审核委员会,以应对美国以及海外的监管。
5月19日,字节跳动宣布,凯文·梅耶尔(Kevin Mayer)将担任首席运营官兼TikTok全球首席执行官,负责TikTok、Helo、音乐、游戏等业务,以及字节跳动全球职能部门(不含中国)。58岁的凯文·梅耶尔曾任迪士尼高级执行副总裁兼首席战略官,离开迪士尼时的职位是消费者与国际业务董事长,期间领导了迪士尼Plus的开发,推出迪士尼流媒体服务Disney+——该服务全球付费订阅用户数现已突破5000万。
此外,凯文梅耶尔也主导了迪士尼对于包括漫威娱乐、21世纪福克斯、皮克斯、卢卡斯影业等机构的收购,并曾负责国际运营、全球内容和广告销售业务。业界普遍认为,对美国的重重质疑,字节跳动选择启用一位有声望的美国高管进入核心管理层颇有示好之心。张一鸣希望打造国际化团队,助力字节跳动在全球范围的成长,这个梦想能否实现?我们共同期待。

12.65W+特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。
推荐话题