Press "Enter" to skip to content

娱乐数据科学:网络流媒体与影院比较

与其相似的地方就是与其不同的地方

Krists Luhaers在Unsplash上的照片

在我关于“娱乐数据科学的下一个前沿”文章中,我提到数据科学如何应用于内容生命周期的各个阶段,从绿灯决策到制作再到发布。虽然我们很容易从概念上理解数据科学在确定哪些剧本应该获得绿灯以及如何优化制作成本方面的应用可能存在差异,但即使在外表上看起来相对相似的情境中,也可能存在鲜明的差异。

大约一年半前,我在一家大型电影制片厂开始了一份新工作。我原本以为事情会比较相似,只是这一次我要专门处理电影数据而不是电视和电影数据。使用数据来预测事物的受欢迎程度,事情会有多不同呢?

哇哦,我完全一无所知。

这个行业完全不同。问题不同,利益相关者不同,数据不同等等。因此,我希望在写这篇文章时有两个目标。第一个目标更显而易见,就是向有抱负和初级娱乐数据专业人士展示数据科学在影院和流媒体情境之间的差异。但我想象这个动态可能在许多不同的行业中出现,你可能认为你将一直做相同的使用X来预测Y的事情,只会发现它在X和Y方面采用了完全不同的方式-因此,第二个更广泛的目标是让各个领域的数据专业人士了解,尽管两份工作在表面上在功能上似乎相似程度很高,但在您真正开始研究数据和相关业务问题时,它们在各种方面可能是完全不同的。

在此之后,以下是我在从流媒体娱乐数据科学跳槽到影院娱乐数据科学后的一些关键观察。我跳过了一些显而易见的观点(哦,没有影院的电视节目发行,真是个惊喜),但我提及了一些主要趋势。当然,这一切都不是一种真理的权威陈述,因公司、团队领导力等因素可能情况各异。此外,尽管数据科学可以在娱乐内容生命周期的早期阶段发挥作用,如我上面所提到的,但本文是基于我在更接近发布的下游过程中的经验。如果我显得有些模糊,那是故意为之,因为我不想泄露任何机密。

Joshua Sortino在Unsplash上的照片

数据的范围

最明显的区别在于数据范围的差异。在影院数据科学中,主要的分析单位是电影,也许是电影-国家-而在给定的年份,一个国家所发布的电影数量是有限的!

这并不意味着在影院方面你从不会处理更大的、以更精细的层次进来的数据集;这些数据集通常与标题或标题的某个元素相关,并且你经常会处理它们并以某种方式处理它们以生成与标题相关的见解。但底线是,由于默认情况下标题空间较小,数据范围也较小。我希望有一天,我们能够在影院领域获得更精确、个体层面的洞察消费情况,这在流媒体领域是可能的,但至少目前并非如此。

Michael Marais在Unsplash上的照片

没有历史数据

在流媒体领域,大多数情况下(除了独占流媒体发布之外),您通常会有大量的历史数据可供使用。该片在票房上赚了多少钱?它发布时的社交媒体关注度如何?该片在烂番茄网站上的表现如何?

在戏剧空间中,您却没有这种奢侈。当然,您在某种程度上可以依赖特定组成部分的历史,无论是演员、剧组、类型,还是某种组合,但即使如此,这些数据点通常也不会像文字化的历史数据一样清晰地与特定片名相连接。此外,这样的比较可能充满主观性问题和外部混淆因素;如何确定哪些片名与其他片名真正可比?营销和营销活动的差异对公众对片名相似性的感知起到了什么作用?

* 是的,系列和特许经营权是对此规则的半个例外,但过度依赖续集和相似性假设很容易适得其反。是的,在许多情况下,前作的表现可以相对准确地估计其继任者的表现,但系列可能会随着时间的推移失去动力或过度延伸(新角色/情节和与过去片名的薄弱联系),因此早期片名的表现可能对预测更新片名的表现毫无意义。

斯科特·格雷厄姆的照片

非常特别的数据

作为一名从事初创流媒体技术领域的数据团队成员,我花了很多时间研究我们需要的哪些数据集可能有用。在这样的工作过程中,我发现了许多符合各种需求的不为人知的数据集,并调查了如何以较低的成本收集那些供应商以高价格出售的数据(例如,如何在未支付昂贵许可证的情况下获取谷歌搜索数据?)。

在戏剧方面,标准和惯例似乎更加确立。行业中几乎每个人都使用某些消费者和社交媒体数据集或数据集类型。例如,尽管社交媒体监听可能是一个明显的当代数据来源,但有一些主要的已建立供应商提供了详细的预发布和发布后的消费者数据,其中一些供应商已经存在几十年了。这些是许多戏剧领域之外的人可能从未听说过的数据集,但当您涉足这个领域时,它们就是你谈论的全部内容。

马腾·比约克的照片

没有窗口(或者只有一个窗口)

在流媒体领域,可用性的时间窗口(以及在一定程度上,可用性的性质)是分析中的一大因素。这些窗口可以与各种内容(例如,该片是否与圣诞节相关,窗口是否为圣诞节窗口?)和市场层面的因素(例如,该片是否在首页上醒目展示?)发生互动。

可以想象,这些问题在戏剧数据科学中较少存在-或者更准确地说,除非您在进行与“我们应该制作这个片名?”或“我们应该何时发布这个片名?”等上游建模相关的工作,否则与时间窗口相关的任何问题已经在您介入之前以(很可能是)发行日期的形式决定好了。您只需要担心一个窗口(除非您必须考虑分阶段发布日期,那又是另外一个故事),而这一切已经由上级权威决定了。现在,您需要尽力在该窗口的背景下提供所有有用的见解。

Unsplash上的Christian Joudrey拍摄的照片

对业务的更大强调

在流媒体领域工作期间,很容易将作品和观众当作数字对待,因为我们有数十万个数据,但这种哲学也反映在方法论中。我们通常不仅生成汇总统计数据,还将所有内容转换成某种向量嵌入(即一系列数字,它们在某个人类无法观察到的维度集合中),即使这样做会付出可解释性的代价;能够说“内容维度2是模型中最重要的变量”并没什么意义。

在影院领域,更加关注业务,超越了数字。数据不仅仅是为了数据本身,而是为了对组织各个利益相关者提供有价值的见解,其中许多人并非数据科学家,甚至不是每天都使用数据。准确的预测很重要,但解释能力同样重要,并没有仓促地为了减小模型误差的千分之一而抛弃解释性。反过来,我觉得在我所做的工作中与业务和观众更加联系紧密。

要点和结论

在这篇关于我在娱乐行业中从流媒体到影院的转变中,我已经谈到了各种话题,但其中的基本主题涉及对在同一行业中从事两个相似却不太相同的工作的人提出相关问题。所以,为了总结一下,在你认为你的下一个工作将与上一个工作大致相同之前,根据上面提到的流媒体和影院数据科学的差异,以下是一些值得更深入思考的问题,以便你思考你过去的工作和下一个工作之间的相似性和差异:

  • 数据范围:数据的单位是什么?数据是多久添加一次,每次添加多少个单位?因此,数据集有多大,需要什么工具来处理这样的数据集?
  • 历史数据的可用性:是否有可用的历史数据,如果有的话是直接适应,还是涉及某种聚合、填充或相似性分析?
  • 数据来源:使用了哪些数据源?使用的数据源更普遍相关还是更具特定上下文的?是否有足够的空间来尝试使用新的数据源或放弃现有的数据源?有什么常规数据集是每个人都在使用的?
  • 时间因素:对于你必须回答的特定问题,时间窗口的相关性是什么?这是如何确定的?是单一的还是多个的,固定的还是变动的?在工作中如何考虑时间和相关因素(如季节性、节假日等)?业务上的某个时间窗口比其他时间窗口更感兴趣吗?
  • 业务重点:观众是谁?鉴于此,需要在准确性和解释性之间取得何种平衡?这又如何影响发现有用的功能的种类?业务速度是如何推动工作速度的?

显然,我被录用到当前的职位是因为我的技能在工作职责上是相关的,我所从事的工作与之前的工作相似,但影院侧面的数据科学与流媒体侧面相似和不同。正如上述所述,数据不同,过程不同,期望也不同。我希望如果你希望进入令人兴奋的娱乐数据科学领域或者在你所在的任何行业考虑转换到类似但不同的工作时,你会发现本文有用!

Danny Kim (University of Pennsylvania博士,福布斯30岁以下30佳2022)目前是索尼影视娱乐公司市场分析与洞察团队的高级数据科学家。Danny曾在Whip Media和派拉蒙影业工作,并且是宾夕法尼亚大学和南加州大学安娜伯格传播学院、沃顿商学院、南加州大学电影艺术学院的校友。

Leave a Reply

Your email address will not be published. Required fields are marked *