本帖最后由 数据官观数据 于 2019-2-20 17:27 编辑
截止到今天,中国首部重工业科幻电影《流浪地球》票房已经突破32 亿元,而且现在仍然保持每天 2 亿票房的入账,很可能会最终突破 50亿票房。惊人的票房数据让众多票房预测机构大跌眼镜。根据我们的统计,在春节档之前,不同预测机构给《流浪地球》的票房预测普遍在 10亿左右,与本片的实际票房差距在五倍左右。
与此同时,在春节档其它电影的票房预测上,预测机构也普遍呈现了非常大的偏差,甚至在电影第一天的票房数据之后,猫眼APP给出的《喜剧之王》的预测值仍然达到了 24.96 亿,而实际上,《喜剧之王》的票房之后就大幅缩水,最终的票房很可能只停留在 6亿左右。
票房分析可以说是大数据分析一个非常典型的应用了,具有数据来源多(历史票房数据、社交媒体互动、受众反馈等)、数据量大、影响因子多(用户评价、宣传流量、预售量、档期、题材、流量明星)等等特点,可是真正到实践之中仍然不尽如人意。那么,为什么数据预测这么难呢?怎么来提升数据预测的准确性呢?
一、大数据来进行票房预测的三种思路
Datahunter 资深数据分析师介绍称,目前针对电影票房的预测主要有以下三种思路:
第一种思路可以形象的理解为“照猫画虎”,其原理在于:目前市场上已经上映了大量的影片,并积累了海量的票房变动数据,深度神经网络模型可以依据某一部影片的大量用户行为数据,在定档影片上映前一个月就可以给出该片的首日票房预测;同时,系统自动筛选出与之最相似的电影,描绘出待映电影的未来票房走势图,进而预测出这部影片在上映期间的每日票房以及最终的总票房。谷歌所采用的预测模型只选取了三种维度:电影预告片的搜索量、同系列电影前几部的票房表现、档期的季节性特征,最终获得94%的预测准确率。
谷歌建立的票房预测线性回归模型
这种方式的优点在于简单直接,更接近传统大数据分析“只反映趋势,不深究因果”的理念,上映时间越长,其预测的数据就越为精准,往往适用于猫眼等掌握了大量票房数据的企业。但缺点在于,其无法将电影上映过程中众多的复杂因素考虑进来,所以经常会出现预测波动大、与实际偏离值较高等缺陷。
第二种思路则较为复杂,而且会将更多的因子纳入到考量因素中来。其先根据历史票房变化预测出某一个档期的总票房,然后根据社交媒体讨论数量、不同导演与演员的历史电影质量、点映用户的评价、票房情况、SEO情况等预测出各电影票房占比,之后综合预测出各电影的实际票房。这种方式优点在于更多的将“电影评价”这一个重要因子纳入到考量范围内,通过电影导演表现、上映前反馈等等因素来判断出电影的流行趋势,因此预测精准性方面有更好的效果。
第三种思路则综合了大数据分析与人工决策,即先使用大数据分析来对于影片的票房进行一个事先的预测,并输出可视化的数据图表。与此同时,专家会对具体的电影进行分析,找出其潜在的爆点或是隐患,并评估其可能带来的影响,并以加权的方式纳入到模型之中进行修正。这种方式在预测爆品方面有更好的表现,也是Datahunter 优先推荐的方式,这种方式我们在稍后会继续讲到。
二、票房预测为什么这么难?
尽管有着大量的数据以及先进的工具,但是票房预测仍然没有达到让人满意的精准率,这就要像金融行业中经常谈到的“黑天鹅”概念一样,非常难以预测、且不寻常的事件经常会发生,而且还会引起连锁负面反应甚至颠覆。体现在大数据分析与预测场景中,只要某个隐性但关键的因素没有没纳入到模型中,将可能使预测与事实产生重大偏差。 这也是大数据分析的难点所在:事物变化的影响因素非常多,几乎不可能穷尽,谁知道哪一个因素将会产生连锁式的反应?而且,由于很多大数据分析工具并不考虑因果性,只考虑相关性,经常会带来“虚假相关”的问题,也就是无法对于数据变化的真正原因进行归因。在大多数场景下,这样的预测并没有什么问题,但是在特定的场景下,偏离预测的情况仍有可能会发生。
更加不可控制的则是不成熟的市场环境,以及潜在的风险因素,比如影片档期选择、宣发策略的一招失误,就可能导致整个影片的票房成几倍的误差。而某个关键演员的负面新闻也同样会带来不可预期的影响,例如吴秀波的丑闻导致《情圣2》的撤档,范冰冰事件则直接导致《大轰炸》放弃国内上映,赔的血本无归。
如果将具体电影代入到预测模型中,我们将很容易发现预测的难度:如果使用谷歌预测模型来预测《流浪地球》,只有档期的季节性特征是利于其票房发挥的,其不仅电影预告片的搜索量不及同档期竞争电影,而且同系列的科幻电影几乎没有市场表现,无怪乎得到众多预测机构的看衰。这样的例子并不少,其突出的特点就是口碑的大幅引爆,比如《疯狂动物城》、《白蛇传》、《红海行动》乃至票房榜首《战狼》都属于这个类型。
三、数据预测准确率如何改善?
尽管电影票房预测看似困难重重,但是仍旧可以通过不同的方式进行改善。在前面我们提到了大数据分析与人工决策相结合的方式,其核心原理就是利用人工思维的主观能动性与创造性,发掘电影票房中潜在、但关键的影响因子,最终来得出结论。而这一影响因子是不断发生变化的,几年之前,这一关键因子往往体现在IP、流量明星中,现在,口碑、开创性对于票房会带来更大的影响。
有些人会问,电影尚未上映,口碑怎么来进行判断呢?其实,这往往是有迹可循的,其数据可能来源于电影的提前点映评价、预告片、拍摄周期等等因素。例如,在上映之前,《流浪地球》的点映就得到了观众的超高评价,而《爱情公寓》大电影还没上映我们就基本可以判断是烂片。当然,这些都是大数据系统无法完全告诉我们的,需要专家进行评判。
要评价电影对于观众的吸引力,还可以采取 LDA 来进行分析,LDA是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。下面是不同机构通过 LDA对《流浪地球》进行的词云图分析,可以看出《流浪地球》的科幻、特效等核心词汇很好的切中了当前观众的“痛点”,完全可以在预测中给出更高的评判。
四、数据分析的其它应用场景
除了票房之外,其它应用场景可以利用大数据分析+人工决策的方式进行分析么,答案是肯定的。目前 Datahunter 正在搭建 DataAnalytics 数据分析平台+Data Wisdom数据智能决策的人工智能决策辅助平台,这套系统并没有激进的将所有决策任务都交给机器系统,而是将数据挖掘结果输出给专家,并结合专家判断进行调整,能够更好的预防“黑天鹅”事件的发生。
例如,在销售数据预测时,除了可以根据历史销售数据、人口密度、消费水平、消费习惯、商圈口碑等数据进行深度数据挖掘之外,管理者或是专家还会根据帕努单那纳入其它的影响因子(例如某项活动的举行、补贴政策的退出等等),根据结果进行相应的资源调配以及销售额调控措施,让销售更富精准性。
|