“大数据”这个高大上词汇随着各行业互联网化发展会更频繁出现,有人就按字面理解,也有觉得高深莫测。本人在大企业数据岗位工作,但过着“白天数据处理,晚上文艺电影”的文理分裂日常,所以是个一直未能彻底高端起来的人,有曾被考问“大数据”概念却没有如愿解答错失机遇的经历。后来,花了点心思看互联网杂志、听咨询讲义,又见影视案例,因此打算将专业、抽象的知识结合兴趣写一篇分享文。“大数据”教学中常提及两个娱乐领域的应用案例:美剧《纸牌屋》和电影《小时代》;当时我还被忽悠去看美国政治秀的《纸牌屋》体验,后知后觉其实“大数据”是应用在剧外反馈在剧内。在这点与《小时代》异曲同工,然而不少人很难接受它票房火爆的事实,借此余热用《小时代》切入浅析“大数据”的样貌。首先,“大数据”不单指数量的程度,它还包括数据的用途和处理过程等步骤。它不局限某个行业,可以灵活应但要以互联网为载体的各个领域;就娱乐领域而言,《小时代》背后是乐视影业这么一个互联网时代的电影公司作后盾,由此具备了涉足条件。一、为便于理解,这里简括三个数据发展时代 * 1.0时代,静态数据处理,用于分析因果或预测趋势,常见于各行各业的业绩报告或者预算中,是我们生活工作中接触最多的层次。例如:去年暑期档的《小时代1》首周斩获2.73亿,上映27天累计进账4.87亿;《小时代2》距离第一部才一个多月,上映24天也拿回2.99亿;一年后的《小时代3》首日刷1.1亿,同比涨幅47%,10天累计达4.64亿;据往绩《小时代》系列首周票房占总票房55%份额,因此可估算其后的累计票房可能在6亿左右。其实每一部制作成本仅约2350万。这就是从已知数据中得出业绩报告与预测走势的例子。* 2.0时代,动态标签分类、数据挖掘,这点常见应用在运营商、金融机构、视频网站、电子商城或各平台渠道中,后台会对用户或者商品进行属性标识、划分价值、精细分类等,以便进行精准投放或推送信息。* 3.0时代,算法生成管理,所谓的“大数据”处理。大多企业能做到前两个时代的工序已基本满足日常运作了,那么更高层次的“大数据”有何意义?
二、“大数据”主要是应用解决方案 * 所以做大数据必须先确定目标项目在《小时代》案例当中,“大数据”对其作用目的有两:先是预测人气说服投资方出资、说服院线提高排片率,尤其与院线谈排片时,发行方没有提及电影本身,全是拿数据展示,最终拿下上映首周40%场次的理想结果。再是迎合受众的兴趣与口味提高票房收益。* 以往中国影业的数据应用几乎是事后统计推导,“大数据”更在乎是事前测算以前是样本数据,现在是海量数据;以前是追求精准,现在是偏重概率;有足够的基础数据前提下,预测可以精确但没这个必要,只需提高概率上的命中。例如:分析得知喜欢《小时代》的受众当中,有40%关注了芒果台主持人的微博,那么在其主持的《快乐大本营》宣传,显然命中概率更高。三、能处理海量数据只是条件之一,真正称得上“大数据”必须满足三项基本条件 1、获取数据能力大数据时代的数据获取,主要依赖互联网,常见的数据来源有:自平台、开放平台抓取或者从数据公司购买。以《小时代》为例,他们着重在微博渠道获取数据,其次通过视频网站抓取补充。后期还会通过数学模型转化成数据,导入乐视影业的大数据系统储存。* 在前期,“小时代”已成为新浪娱乐和新浪微博影视排行榜第一的热词。* 在电影排行榜搜索指数位列第8位。* 官方抛出的PS《小时代》海报微活动,统计到超过140多万条相关微博话题。* 预告片发布不久,在新浪、腾讯微博被转发超25万次,点击量过500万。* 图书商城中的同龄读物:《暮光之城》四册图书销量约1000万册,《饥饿游戏》销量为500万册,而《小时代》销量超过2443万册。再者是数据的质量,有人会认为字段完整就够,这是忽略了互联网的本质。所以“大数据”是关注用户的行为重于用户的资料,因为互联网的资料可以随意填写,甚至虚假,然而用户的行为、习惯更具真实得参考价值。* 发微博话题,搜索关键字,购买原著这些成为非常说服力的用户行为数据。2、分析挖掘能力对数据深挖也是一项重要能力。例如《小时代》的微博数据分析如下:* 从年龄构成看,受众是平均年龄20.3岁的年轻主力军;* 从性别构成看,女性受众超过80%以上,其中50%是微博达人(活跃群体);* 从区域分布看,积极参与话题、传播甚至争论的区域集中在湖北、四川、浙江、江苏、江西等地,而北京、上海、广东偏冷,因此推广投入更应该倾向二三线城市;* 受众群体喜欢用iPhone发微博;* 她们对影视娱乐明星的关注比例高达80%,其中郭敬明、柯震东、杨幂这几位列共同关注量前十之内。* 其关注的企业品牌,不乏各大奢侈品,从中能推定受众的心理趋向。* 了解其对情节、演员的评价,从而对场景、角色戏份增减。* 了解到受众热衷讨论那些名牌服装,为此《小时代3》特意用上了7000多套。* 了解到《小时代1》天台上喝醉酒桥段受欢迎,继而续集会把类似情景尽量保留甚至强化。3、建模算法能力面对过千万数位字段复杂的数据源,即使不精确知道每个人,只了解大数的共性,甚至分辨性别、年龄层次,了解关注品牌,喜好的明星,判别话题评价,从而确立定位受众,已经不是单人匹马能应付的程度。从数据获取,到需要一套运算系统(常见是微软、IBM或甲骨文的云计算服务),再到精通建模、算法的人才,三要素缺一不成大数据,目前高级数据人才非常稀缺,企业推动“大数据”进程不少卡在这项。四、以大数据作支撑的粉丝经济 众所周知《小时代》系列是一部粉丝偶像电影,即为粉丝经济,等同明星价值由粉丝数量和质量决定,此处的质量非指素质,而是活跃度及消费能力。有趣的是,大家经常会拿郭敬明与韩寒PK,不谈作品就电影粉丝而言已经有很明显的特征区别,且不考究哪个群体更有钱?就从感性与理性的消费心态看待不言而喻。《小时代》是采用了新媒体大数据分析,对受众群分析及定位,了解并去读懂她们的心理,更从作品中建立满足她们的东西。例如:为迎合大多数女性受众疯狂地用帅气美男;充满遐想梦幻的情景由男性角色引出,带真情实感的体验只由女性角色承接。执导层面也以此立点,大量使用背景音乐迷幻衬托,频繁打大特写彰显明星华丽气度。不论公众对电影评价,它确实是打开了一直被压抑的青少年女性市场,于是票房涨起来了。五、结语 “大数据”能应用在影视领域中,让我们见识其强劲威力与潜力。但它应用在商圈中趋利属性锋芒,如何从艺术灵感与取悦受众间取平衡点,要看创作者的意志了。严格来说,《小时代》只是运用到大数据框架进行各种预测和推动,未完全是一个完整大数据案例,能熟悉各种算法运用并能灵活建模是人才核心是大数据工程的关键,我觉得自己离这条路还很远呢。备注:本人主要混迹日影日剧区,特此路过留稿分享,也晓得豆瓣是各种青年以及高冷黑的聚集地,豆瓣规定写长影评要打分,3星只表观点中立,谢谢谅解。文:榜上有名猫(2014.07.30)【观后,由于电影镜头各种迁就及“和谐”删减,真心差评!还是忍不住降星了】