导言
快手是什么
1990年,美国未来学家托夫勒提出“数字鸿沟”一词。他指出,拥有与未拥有信息时代工具的人之间存在鸿沟。中国积极推行的“宽带中国”、“互联网+”战略、数字中国,乃至接下来的5G(第五代移动通信技术)战略,都是消除数字鸿沟的重要战略举措。
本书提到的“注意力鸿沟”是数字鸿沟的重要组成。在互联网上,注意力是非常宝贵的资源,其分配状况直接影响人们的获得感和幸福感。和很多资源一样,注意力资源有马太效应的自然倾向,即少数群体享受多数资源。
从经济学的角度来看,注意力资源的价格很贵,大部分人没有能力享用,无法自我表达和被社会关注,处于劣势。
如果可以把注意力的鸿沟填平,让更多的普通人被关注,增加人与人之间的连接,发挥更多人的想象力和创造力,则社会会更繁荣,人们生活的幸福感也会更强。
互联网的核心是连接一切。视频时代的到来,还有人工智能技术的发展,加上快手的普惠理念,有机会在更小的颗粒度上创造更多的连接,让原先没有得到关注的人在毛细血管层面得到更多的关注。注意力的鸿沟正在被填平。
中国的长期投入催生视频时代
过去几年,因为中国在互联网领域的长期投入,视频领域的基础条件快速成熟,促进了视频时代的到来。很多条件在中国是得天独厚的。
今天,我们可以在快手上看到很多有意思的视频,它们鲜活地呈现了普通人的生活。
鸭绿江上的放排人,把高山上的木材顺着水流运出来,这种古老的水运方式以前鲜有人知,如今却被数百万人关注。
城市建筑工地的潜水员,很小众的职业,但一二线城市的每一座高楼大厦都需要他们。建高楼打地基时,需要用电钻挖几十米的深坑,电钻头掉了需要他们潜到几十米深的浑浊泥水中,把电钻恢复原位。
卖水果的“罗拉快跑”,他在陕西富平的吊柿前直播,现场品尝吊柿,让几十万用户看到了这个美味的特产,还可以立刻下单购买。
时光倒退五六年,大众是没有机会看到这些内容,并一键下单购买这些商品的。短短几年内,至少有四个条件具备了。
一是智能手机的普及,现在买一部有内置摄像头、功能非常完备的智能手机只要1 000元左右,甚至几百元也能买到。
二是4G(第四代移动通信技术)网络的普及,普通人都可以负担得起移动网络的费用。即使在很偏远的地区,国家都投入了大量的资金用于电信基础设施建设。
在上述两个条件实现之前,上网只能通过电脑连接网线,成本要高许多。而且一旦人员流动,就不便于迁移,而手机和4G网络没有迁移成本。
三是支付的便利。有了智能手机,买东西付钱,随时随地就可以实现。
四是物流网络的发达。
这四个条件同时具备,并且全民可以享受,为视频时代的到来奠定了基础。视频作为新时代的文本,相比于文字,它有自己的特点。一是视频比文字在表达上更真切,内容更丰富。有很多成语描写美女,如沉鱼落雁、闭月羞花,但一图胜千言。而视频鲜活生动的呈现方式,使其又比图片更有表现力。二是视频的拍摄和观看门槛更低,适合全民参与。人类对视频信息的接受是最天然的,一个两岁的小孩子可以不会说话,也可以听不懂你说什么,但是他能够看到、看懂视频表达的大致意思。人类学会写字是要经过长时间训练的,但几秒钟就可以学会用手机拍视频。
正如文字改变了社会的方方面面,视频也会改变社会的一切。这种改变不是简简单单的一个补充,也不是简简单单的一个增量,而是彻底的改变。
未来,如果我们的个人设备从手机进化到眼镜,进化到VR、AR(增强现实)以后,影像化的产品会更大地改变这个世界。所有的应用,都要重新再设计一遍。
从这个角度看,很多人说快手是一家短视频公司,其实并不是很准确。视频或者短视频并不是一个行业,只是一种新的信息载体。正如虽然文本是一种承载信息的方式,但没有人把文本当成一个行业。
人工智能技术深入快手的骨髓
摄像头内置进手机,人人都可以方便地拍视频,视频数量暴增。因而,视频与人之间的精准匹配成了核心问题。
匹配机制最核心的有三件事:一是理解内容;二是理解人;三是将内容和人连接起来,让它们匹配。门槛在于数据,要有人和内容之间交互的数据去做模型。
首先是理解内容。如果是文本化的内容,理解文本的技术在10年前就已经非常成熟了,可以分词,做词性标注、提取标题、关键词、实体,以及算重要性、情感等各种各样的文本分析。
最近10年,学术界又发展出一整套用于分析图像、分析文本、分析语音内容的工具。给出一张图像,可以分析出场景。这是在学校还是酒吧?里面有没有人或动物?他们高兴吗?不管这是对文本还是影像,都可以让计算机建立对内容的理解。
第二是理解人。首先需要理解一个人长期的静态属性,这叫用户画像,包括年龄、性别、身高、出生地等。其次是理解这个人的兴趣偏好,比如喜欢什么口味,爱打球还是爱跑步,最近是想旅行还是宅在家里。最后是理解人的意图。一个人使用你的App,他当时脑子里在想什么?是在想要用苹果手机还是三星手机吗?是在想自己饿不饿吗?
如果能够很丰富地在这三个层面建立起对一个用户的理解,就能在人和内容之间建立很好的匹配关系。这个匹配的关系不是靠规则来建立的,而是利用在软件中用户和内容之间相互互动的数据,用现在深度学习的方法做一个模型。这个模型只需要干一件事情,即预测一个新内容和一个新用户之间匹配的概率。如果有这样的预测能力,内容和用户之间的匹配就会变成一个非常简单的问题。但是需要把这个问题拆解成这三方面,每个方面都要有能胜任的人去解决。
快手正是这样一家以AI为核心技术的科技公司,AI技术深入产品骨髓,贯穿于内容生产、内容审核、内容分发、内容消费的全业务流程。
除了分发的环节,快手还在视频创作环节广泛应用AI技术。我们希望每个人都能成为自己生活的导演,用最普通的手机也可以去记录生活,生成相对较高质量的视频。
把AR技术应用在用户拍摄视频的环节,给现实生活的画面加入一些虚拟的元素,这属于增强现实,使虚拟世界和现实世界更好地互动,使人们在记录自己生活的时候有更多的新奇体验。快手之前上线的一款魔法表情叫“快手时光机”,用户可以在几十秒内看到自己容颜变老的过程。一个人拍自己的视频久了会感到乏味,我们希望用户能够看到自己变老以后的样子,从而更加感受到时间的可贵。
我们会运用图像相关的算法,帮助用户矫正拍摄中出现问题的视频,比如脏镜头导致的视频画面模糊,光线问题导致的画面昏暗及画面偏色的问题。
这些玩法和功能的背后是快手对前沿AI技术的开发,涉及人体姿态估计、手势识别、背景分割等多个技术模块。这些都是快手努力将记录形式变得更加有趣的新尝试。
这里有一个挑战,上述技术都要在手机本地实时进行计算与渲染。快手拥有数亿用户,用户的手机机型千差万别,这要求我们的算法必须在所有的机型上都能流畅运行,这对我们的AI能力要求非常高,非常消耗计算资源。为了解决这个问题,快手自研了YCNN深度推理学习引擎,解决了AI技术运行受限于用户设备计算量的问题。
在音频方面,我们也做了非常多的工作。比如之前专业人士在创作视频时,编辑字幕是非常痛苦的事情。现在我们通过语音识别技术,可以帮视频制作者自动添加、编辑字幕,还可以以各种各样的形式展示字幕,借助AI技术极大地降低了生成字幕的成本。
音乐在短视频场景里起了非常重要的作用。据统计,快手的视频中,有60%~80%的视频用背景音乐烘托气氛。如何选择恰当的音乐表达心情,其实不容易。让用户尽量贴合音乐的节奏创作动作,对于用户的要求也是非常高的,而具备很强乐感的人其实非常少。
为了降低用户创作视频时选择音乐的门槛,我们开发了智能配乐及AI生成音乐技术。智能配乐可以根据视频画面及用户画像为用户推荐合适的且被用户喜欢的背景音乐,供用户选择。AI生成音乐技术通过AI的分析算法,可以感知视频画面中人的动作,然后让生成的音乐节奏匹配人的动作,这样极大地降低了用户创作视频时选择音乐的门槛,让大家更愿意创作自己的视频。
算法之上的普惠价值观
快手服务于普通人的记录与分享,平等普惠是快手的核心价值观。我们认为每个人都值得被记录,无论是明星还是大V,不管在城市还是乡村,每个人都拥有平等分享和被关注的权利,快手不会特殊对待,不捧明星红人,不进行流量倾斜。
我们保护每一个普通的视频生产者,每个人生产的视频都有机会被分发出去,这是一个公平的起点,不管你是有100万粉丝、1万粉丝,还是只有1 000个粉丝,都有通过一个视频立即变火的可能性。
保护普通的视频生产者,带来了拍摄内容的多样性,因为拍的人多了,内容自然就越来越丰富了。
我们在观看需求的多样性和拍摄内容的多样性之间做匹配。由于拍摄者拍了很多新鲜的内容被别人看到了,由于观看者看到了很多他平时看不到的内容,所以最终回到了公平普惠最基本的点上。
如今快手上的视频总数超过100亿,几乎都是不重复的生活记录,这在历史上是前所未有的。如何让这100亿个视频与观看视频的用户进行匹配是一个巨大的挑战。
过去,业内常见的做法是运营好长尾曲线中头部的“爆款”视频即可,但快手希望尾部视频同样能被感兴趣的人看到,真正能够让每一个人都得到一些关注。
在视频的分发上,我们不希望头部的视频内容占据太多的曝光度,我们用经济学上的基尼系数控制平台上用户之间的“贫富差距”。
跨过注意力鸿沟
快手从事填平注意力鸿沟的工作,这体现了普惠的理念。看上去这些都是抽象的词,实际上,历史上有很多普惠技术,填平过各种鸿沟。
这也正是技术和经济演进的逻辑。刚开始,某些东西很贵,只有少数人有资格享用,多数人用不起。因为某种技术进步,它的价格降下来了,普通人也可以享用,人与人之间在某一方面接近平等,生活得到了改善,整个社会因此更加进步。
曾经,文字的价格很贵。只有少数人会识字写字,在中世纪的欧洲,读写能力大部分掌握在僧侣手里。印刷术的发明,大大增加了识字的人口数,让思想得以自由交流和生产。当时,这是一个极其重要的普惠技术。
因为没有保鲜技术,所以在中世纪的欧洲,胡椒的价格很贵,只有少数富人能够享用。在大航海时代,葡萄牙的航海家发现通往印度的航线后,大量的东南亚地区的胡椒通过海路运到欧洲,胡椒的价格就降下来了,胡椒成了家家户户都可享用的调料。
在19世纪之前,颜料的价格很贵,大部分欧洲人穿的衣服是黑色的。1856年,18岁的化学家威廉·珀金合成了苯胺紫染料。颜料便宜了,每件衣服都可以有不同的色彩,每栋房子都可以有不同颜色的涂料,世界从此多姿多彩。
摩托车和汽车也是普惠工具。原来摩托车和汽车只有少数人买得起,现在价格便宜了,普通人也可以拥有私家车。对于山区的人,摩托车更是必不可少的生活和生产工具。
邮政、电话、手机都是重要的普惠技术,它们让普通人可以写信和发信息,具备了自我表达的能力。
快手是在这一基础上的延伸,是让每一个人都可以记录和分享生活的工具。快手利用人工智能技术在内容与用户之间进行精准匹配,让每一个人的生活都有机会展示出来。快手其实降低了注意力的成本,跨越了注意力的鸿沟,让每一个人都有了自我表达的能力。
被看见的世界精彩纷呈
如果信息管道不够粗,注意力比较贵,自我表达就需要排出优先级。结果就是,不是每一个生活都能被看见,生活其实就有了高低之分。优秀的生活有资格被看见,其他生活被认为是平庸的,不值得被记录和分享。
手工耿做的是“无用良品”,本亮大叔的唱功并不专业。按照原来的标准,他们很难被看见。
快手让每一个生活都可以自我表达,被看见,被欣赏。每一个存在都是独特的,生活再无高低之分。这是更加真实的世界的镜像,是一花一世界的境界。在这个基础上,因为可以相互看见,所以一些社群形成了。
中国有3 000万名开大卡车的司机,他们为生计长年在外奔波,还可能会遇到车匪路霸,与家人聚少离多,他们有自己的快乐与痛苦,很少被关注,也很难与外人沟通。还有,每个城市都有给殡仪馆开车接送遗体的司机,全世界的海洋上漂着无数的常年不能回家的海员。
而在快手,当一位大卡车司机在驾驶室里不经意间拍下自己工作和生活的场景,被另一位大卡车司机看到时,他们看到了自己的快乐、痛苦和压力,彼此找到了共鸣,也更加自信了。这是一个社群的形成过程和它的力量。
也许,对外人而言,很多视频毫无价值,但对拍摄者自己而言,它却是生活中不可剥离的一部分。这种社会功能,部分可以经由艺术家的创作来实现,但艺术家的创作能力毕竟有限,社群让很多人获得新的知识,得到认同,相互支持,提升了幸福感。
当我们把不同的变量输入“被看见”这个公式时,还可以得到不同的答案。
当每个人的才能可以被看见时,就有了快手教育生态。比如,兰瑞元生活在江西省的一个普通县城,她只有中专学历,却可以教全国的用户如何用好Excel(电子表格软件),一年赚了40多万元。
当每个好的商品可以被看见时,就有了快手电商。比如,“罗拉快跑”在拍猕猴桃的视频时意外发现了商机,现在他已经创立了自己的“俊山农业”品牌。
当非遗文化可以被看见时,就有了快手上对许多原本无人关注的非物质文化遗产的展示。
当一个贫困的乡村可以被看见时,那些不同于城市的美丽风景突然展现在全国人民面前,就有了游客,有了当地人收入的增加,扶贫工作自然而然就有了落脚点。
……
这样的例子还在源源不断地涌现。
每个人心中都有一个渴望,希望自己的状态、情感、灵感,能够被更多的人看见,被更多的人理解。通过短视频实现的记录,让人与人以及人与世界连接起来,而建立这种连接是非常有意义的事情。
快手大事记
2011年 快手成立,当时叫“GIF快手”,是一款做GIF动图的工具型产品,帮助普通用户用手机拍摄视频,表达自己的情感和小乐趣。由于网络终端等条件限制,当时拍摄出来的视频只能用动图传播。
2013年7月 快手由工具型产品转型为短视频社区。移动互联网兴起,短视频的影响和作用逐渐显现,快手工具增加了内容分享功能,用户产生的内容可以在社区里分享给所有网友。
2013年底 产品加入智能算法。
2014年11月 去掉GIF改名为“快手”。
2015年1月 快手每日活跃用户数(DAU)超过千万。
2017年12月 快手每日活跃用户数突破1亿。
2018年6月 快手完成对二次元社区Acfun弹幕视频网的整体收购。
2018年底 快手每日活跃用户数突破1.6亿。
2019年6月 快手每日活跃用户数达到2亿,月活跃用户数突破4亿。