Netflix作为世界上最大的在线影片租赁服务商,与很多零售业、金融物流业巨头一样,掌握了大量的顾客数据。截至2014年3月,Netflix在国内、国际的用户总和将近5000万,这些用户在什么时间观看或搜索了哪些影片、花了多少钱、居住在什么地点,甚至是年龄、性别等都会通过注册会员和订购行为保留在Netflix的数据库中。如果将这5000万人看做是社会学研究中抽样的样本,那么Netflix则可以知道全美国甚至全球各地电影观众的背景和看电影的各种偏好。
与传统社会学研究中常用的几千,最多几万样本相比,5000万人绝对称得上是超大样本量。而且,如果Netflix想要做自身用户调查的话,这5000万人则不仅仅是抽样,而是全样本量调查。这类通过互联网搜集的、将所有数据“一网打尽”的研究方法,被人们称为“大数据研究”。2014年,国内电影大数据分析平台“数太奇”(idatage)试验了将大数据采集和问卷调查相结合的方法来研究电影观众,这无疑为电影的前期宣传与制作奠定了相对真实可靠的基础。
当抽样调查法遇到大数据
“大数据”不是万能的,但它是一种思维方法和研究方法,与传统的“经验认为”或“规律表明”相比,它可以让我们在无限接近真相的道路上又前进一步。大数据研究有局限性,就是过于依赖互联网,一些无法在互联网上反映的信息则无法纳入研究范围,而这些信息的获取正是传统抽样问卷信息采集的优势所在。
“数太奇”除了抓取分析互联网大数据,还在全国一、二、三线城市,一共抽样了15万个电影观众样本,并将其作为固定样本进行跟踪监测。通过每个月投放连续性问卷采集来的数据可以很好地弥补互联网大数据的一些“漏洞”。“数太奇”通过这一方法将可以调查到的指标扩大到了以下几项。
一是电影观众院线观影行为,包括观影黏度、观影花费、观影频次、观影时间、购票渠道、前往影院的交通方式、观影陪伴人等。
二是电影观众观影心理,包括观众对片源的偏好、电影类型偏好、影院选择、3D偏好、观影动机、影片卖点等。
三是电影观众满意度,包括对影院软硬件设施满意度、进口电影满意度、国产电影满意度、年度市场评价等。
四是电影观众观影互动行为,包括观影互动比例、互动方式、互动平台、互动传播影响力等。
五是电影观众跨屏观影行为,包括电视、电脑、移动设备等各个屏幕的观影行为、观影心理、观影互动等,也包括不同屏幕间观众的重叠度和流动率。
六是电影观众广告接触行为,包括不同屏幕间硬广告和植入广告的观众接受度、广告效果等。
七是电影观众媒体接触行为,包括电影观众平时对桌面互联网、移动互联网、电视、报纸、广播、杂志等媒体的接触频率、时间、地点、情景、内容板块、满意度等。
八是电影观众消费行为,包括电影观众在投资保险理财、服装配饰、酒水饮料、住房装修、汽车与交通、IT数码、家电、护肤美容、教育培训等领域的消费习惯和消费计划。
九是电影观众心理与价值观,包括电影观众的价值观、生活方式,以及对电影所传达出正能量的感受和评价。
以上这些指标既可以反映每月、每季度、每年的发展趋势,也可以细分成某一部影片的详细数据。将以上问卷得来数据和互联网大数据进行交叉分析,综合处理,我们就可以将分析进一步细化,将解释的问题细化到:是谁拎着LV包在周六晚上走进电影院看了一部都市爱情片?是谁边用手机聊QQ边用电脑看完科幻片后点了“周黑鸭”外卖?是谁一到片头广告时间就尿遁加散步?又是谁一看到某位明星出演就必到影院激动捧场?
行业内对电影大数据研究方法的探索还远没有结束,但无论什么样的研究,大家的目标都是一致的,就是致力于提供给观众更个性化的内容、更定制化的营销、更娱乐化的宣传,从而真正将商业电影打造成为以满足观众需求为根本目标的优质产品。
电影大数据研究的特点
所有的大数据研究都面临相似的问题,由于各院线、电影发行公司、票务公司等天然存在的壁垒,无法进行用户资料的共享。目前,电影大数据研究的数据来源只能全部依赖于互联网的公开数据。
维克托·迈尔?舍恩伯格教授在《大数据时代》中提到,互联网大数据的特点除了数据量外,还有“允许不精确”性,数据量的大幅增加会让一些错误的数据混进数据库,淹没不同个体中的一些细节区别,但广泛且高频率的数据会让人观察到很多本可能被错过的变化,了解事物大致的发展趋势。在大数据研究中,我们追求的是整体趋势的准确,而不是细节的精确。
并且,大数据的使用可以进一步优化现有的计算机学习算法,舍恩伯格教授提出:“当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达到10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。”显然大数据的简单算法比小数据的复杂算法更有效。
下文中,笔者介绍的电影大数据研究的一些常用方法,均是基于以上两个特点,与传统研究思路相比,也许在群体划分、概念定义和模型设计等领域显得有些“粗糙”,但当数据量放大到一定程度时,这些数据仍然是有意义的。当然,虽然是大数据研究,如何优化算法、提高数据的精确性依然是所有研究者未来长期努力的方向。
电影大数据能做什么
票房预测。2012年底上映的《人再囧途之泰囧》以不超过8000万元的投资换回了12.6亿元的票房收入,让业界很多人大跌眼镜。2014年,前期宣传营销一直是热点的《小时代3》在上映半个月后票房被同档期的《后会无期》反超。对于电影行业来说,票房预测向来是研究者们前仆后继最希望努力攻克的难关。从大数据研究方法诞生之始,就为票房预测领域带来了令人惊喜的途径。
2010年,惠普实验室通过分析Twitter数据进行电影票房预测,他们根据用户在Twitter上的电影讨论数量、态度和电影上映屏幕数等指标建立了线性回归模型(Linear Regression Model)。同一年,还有国内公司通过寻找电影导演、演员阵容、上映档期等因素对票房的影响规律,从而对电影票房进行预测。
2013年,谷歌(Google)发布了白皮书《Quantifying Movie Magic with Google Search》,公布了其设计的电影票房预测模型,谷歌认为电影相关的搜索量与票房收入之间存在很强的正相关,于是谷歌采用以下四类指标同样构建了线性回归模型:一是(电影放映前一周的)电影搜索量,二是(电影放映前一周的)电影广告的点击量,三是上映影院数量,四是同系列电影前几部的票房表现。根据这一模型,谷歌认为他们可以提前一周预测电影票房,并且准确率是92%。
为了更好地指导电影前期的营销开展,接下来谷歌又构建了一个可以提前一个月预测电影票房的模型,指标变化的关键是将“电影的搜索量”改成了“电影预告片的搜索量”。调整后的模型所需的指标为:电影预告片的搜索量,同系列电影前几部的票房表现,档期的季节性特征。只是由于谷歌并没有根据这个模型发布电影票房预测结果,模型的实用价值还有待检验。
2014年,搜狗公司对谷歌的预测模型进行了优化,用于预测国内电影票房。这一模型依然是基于“电影搜索量与票房收入之间存在正相关”这一规律上的。考虑到用户搜索电影名称时,可能会有同名但非电影的搜索结果混入数据中(如《生化危机》既是一部电影,也是一款游戏),搜狗在模型中引入了查询量的变化趋势和用户点击的分布情况,即通过用户点击的URL(统一资源定位器)来进一步确认用户的搜索意图。
同时,社交媒体上“粉丝”对电影的搜索、转发、评论等相关数据,以及垂直媒体中有关电影的宣传效果(如预告片点击量)也被引入模型,对结果进行修正。在实际的票房预测中,除了前面这些一般因素外,搜狗认为还需要考虑以下特征对结果的影响:档期的电影竞争情况、电影类型、电影产地、是否3D、预告片搜索量。
电影票房预测方法的发展至今依然处于探索阶段,目前还没有一家机构可以凭借大数据十分准确地预测出票房变化。这是因为影响票房的因素十分多元化,而且各家机构常用的线性回归模型本身也具有局限性。除了一些可以用数据体现或可以转化成数据的指标,如导演、主演、电影类型、电影产地、制片方、发行方、电影及预告片搜索量、排片场次、社交媒体提及率、社交媒体提及态度、网络新闻数量等,还有一些无法量化的指标也可以影响到预测的成败,如电影中某一剧情元素与当下社会心理的契合度。
如果综合考虑这些影响因素,票房预测就远非一个简单的线性模型就能解释,而更应近似于一种变化的曲线。
电影观众分析。当然,电影票房预测只是对互联网大数据最初步的尝试应用。近年来,随着国内各种社交媒体的兴起,很多公司也在尝试运用社交媒体数据解释更多的事情,如电影观众背景、观众对影片的评价态度及品牌关注等。
根据2014年7月CNNIC《第34次中国互联网络发展状况统计报告》显示,我国微博用户规模为2.8亿。虽然近两年微博用户一直呈下降趋势,但上亿的用户规模依然成为很多公司实践大数据的理想场地。
第一,微博所要求的实名注册制度,可以让数据分析公司容易获得用户的性别、年龄、所在地、教育程度、职业性质等信息。第二,微博的“标签”功能,通过用户为自己定义并标注的“标签”,可以让计算机采集到用户的爱好、性格、特点。第三,通过编写特定的“爬虫”程序,对所有用户发布的微博和评论内容进行关键词筛选和抓取,可以明确划定某一部电影、影星等的“粉丝”范围和“粉丝”态度。第四,将以上这些信息进行不同组合的交叉分析,就可以得到研究所需的各类结果。
例如,要研究《分手大师》的票房是否沾了同档期《变形金刚4》的光,我们首先需要定义出两部电影的观众群体,即在微博中提到“分手大师”或“变形金刚4”名字的用户,我们默认其为潜在的观众;再“爬取”这些观众的背景信息,检验这两部影片观众的性别、年龄比例或性格、爱好标签等是否有差异。如果两者的差异足以将这两部影片的观众定义成两个群体,那么我们就可以判定,并不是像有些人预测的那样,《变形金刚4》将大量观众吸引到电影院,结果买不到《变形金刚4》票的观众退而求其次才看的《分手大师》,而是《分手大师》有其特定的“粉丝”群体。
此外,植入式广告作为现今流行的一种广告形式越来越受到广告品牌商的青睐。《变形金刚4》里植入了大量的品牌形象,微博关键词的分析则可以从一个角度验证植入式广告的传播效果。我们可以将植入式广告的传播效果分为两个维度:一是影片的观众是否是该品牌的目标受众,二是植入式广告是否引起了影片观众的关注。
对于第一个维度,在定义影片观众群体后,检索这一群体在影片上映前曾经发布过的所有微博内容,分析这些内容中是否提到过该品牌和该品牌提到的比例。如果出现比例极低或者从没出现过,则可以判断影片的观众并不是这一品牌的目标受众。对于第二个维度,则是检索影片观众在电影上映后发布的所有微博内容,分析这些内容中是否提到过该品牌和该品牌提到的比例,则可以验证该植入式广告的受关注度。
电影口碑分析。除了微博,一些专业电影网站和论坛数据也可以用来进行大数据分析,如时光网、豆瓣等。这些网站为每一部影片都开设了专门的讨论区和评分榜,可以更有针对性地分析影片评价和观众态度。
例如,想要知道观众对《富春山居图》的评价态度,只需对时光网或豆瓣中影片讨论区的所有内容进行分词,再利用现有成熟的语义词库,将这些词一一进行比对,划分出褒义词、贬义词、中性词的比例,则可以从一个大的趋势上看出观众对这部影片的态度倾向。
又如,通过大数据来分析是什么元素吸引了观众对《后会无期》的关注。将互联网上所有关于该影片的评论分词后再进行聚类,看哪些关键词出现的频率最高。如果评论中出现频率最高的关键词是“韩寒”,我们可以推论出是影片编辑兼导演的个人名气为影片票房和口碑带来了巨大的影响。
除了分析电影口碑的内容,舆论的传播路径对电影营销也具有重要意义。研究在一个或几个社交媒体之间,一个帖子的内容被谁看到、被谁转发传播、传播了多少人,可以帮助电影营销更有针对性。计算机通过追踪每一条信息的传播路径,可以轻松找到谁是信息传播链条中引发传播量爆发式增长的关键用户,以及该用户的影响力。如果是有利于影片营销的正面性内容,营销者可以通过与关键用户合作,提升传播效率;如果面对的是负面舆论,也可以精确地知道将信息拦截在哪个关键点,以便更好地进行危机公关。(作者系北京数邦伟业信息科技有限公司副总经理)