技术方案特点
据了解,国内外很多大型的视频网站都会有自己的视频流量预测解决方案,在这样的情况下,FreeWheel的解决方案有哪些特点和优势呢?
研发人员表示,通常的做法主要分两种:
第一种是自己实现算法在自己的视频流量上做预测。这么做的公司对自己的业务非常了解,会对于自己的情况做很多特殊的调整,需要大量的时间精力去维护。但是,他们的算法如果直接搬移到别的应用场景往往就不奏效了,或者效果不理想。
另外一种是提供一种通用的机器学习接口给需要的客户。数据清理、模型调参都需要客户自己去完成。这种方法其实并没有本质上解决问题,而是仍然把流量预测中需要专业人员处理的负担交给了客户。并且,由于业务关系,他们无法取得客户的数据内容,也无法积累机器学习经验。
因此,FreeWheel的方式的优势主要有两个:
(1)普适性强。因为FreeWheel的预测服务供多家客户使用,而每个客户的流量规模和需求又不尽相同,所以同一套算法流程能够在多家客户中求同存异,从技术上讲具有普适性。在很多时候,他们的算法从一个客户迁移到另外一个客户上时往往只是改一个配置的事情,并不会要求客户去承担处理数据和调整模型的压力。
(2)数据种类丰富。FreeWheel的客户多来自新闻、体育、电视节目等行业,这也使得其系统囊括了多种多样的数据,包括视频文本、视频流量、视频属性等。这些数据是很多其他公司所没有的,而数据充足这一点对于公司的机器学习技术积累来说是一项重大利好。
为了提升视频流量预测的精度,FreeWheel在已有的技术优势和特点上,还进行了改善与提升。主要基于以下三个方面:
(1)视频聚类算法。当客户提供了人工的视频分类列表,团队需要在此基础上使用预测算法,以达到很高的准确性。预测算法的精度很大程度上取决于视频聚类算法的有效性。
目前,FreeWheel使用最多的视频聚类算法是基于文本信息进行聚类。研发团队有一些内部的评价指标,比方用某种分类算法,有多少视频集合被成功地检测出周期性,以及最终的预测效果。由于不同的客户的视频情况不尽相同,单一地使用基于文本分类的方法是行不通的。对于每个客户,FreeWheel会尝试很多不同的视频聚类算法,例如按时长聚类、按视频的属性聚类等,再使用内部的评价指标选取一个最好的聚类算法。
(2)周期性检测算法。周期性检测算法用来检测一个视频组的流量序列是否呈现周期性的变化。如果有,则用机器学习的方法进行预测;如果没有,则用传统的采样方法进行预测。
据介绍,这也是视频流量预测项目中十分重要的一环。如果将没有周期性或者周期性不明显的序列判定为周期性,会极大地影响预测算法的准确性;反之,如果将有周期性的序列判定为没有周期性,则会导致丢失用机器学习方法预测的机会。
对此,FreeWheel通过不断调整周期性检测算法的阈值和数据压缩方法,人工查看其对于周期性 / 非周期性曲线的判定结果,找到最佳的参数,从而提高整体算法的准确性。
(3)预测算法。影响预测算法准确性的因素主要是预测算法的参数选择和特征抽取方法。目前,FreeWheel提取的特征为每年的某一天、每月的某一天、每周的某一天。比如,需要预测2018年11月18日(周日)的流量,则会提取上周日,上上周日…… 和10月18日,9月18日……2017年11月18日,2016年11月18日等的流量作为特征进行学习。然后,通过调整学习用到的参数获得最好的预测效果。