Press "Enter" to skip to content

访问您的个人数据

公司对你拥有的广泛且常常令人惊讶的数据已准备好,等待你来分析

使用DALL-E 2的辅助创建的图像

数据隐私法正在世界各地出现,并为你提供了一个独特的机会,让你了解别人如何看待你,同时也能对自己有更多的了解。大多数法律与欧盟的《通用数据保护条例》(常称为“GDPR”)相似。其中包括要求组织告知你他们存储的个人数据类型、存储原因、使用方式和存储时间的规定。

但这些法律还包括一个常常被忽视的要求,通常被称为数据可携带性。数据可携带性要求组织在请求时向你提供他们当前存储的关于你的可读机器副本。在GDPR中,这个权利在第15条“数据主体的访问权”中有明确定义。组织拥有的数据通常包括丰富而多样的特征,并且是干净的,使其适用于多种数据分析、建模和可视化任务。

在这篇文章中,我分享了从我经常互动的几家公司那里请求我的数据的经历。我提供了请求数据的建议,以及在数据科学和个人洞察方面使用数据的思路。

你认为你对音乐品味有很好的了解吗?我以为我对音乐品味很广泛和多样化。然而,根据苹果的说法,我更像是一个铁杆摇滚乐迷。

作者提供的表格

想要提高地理数据绘图技能吗?这些数据源提供了大量的地理编码数据供你使用。

通过作者的图像绘制的环球影城漫步图

想要尝试时间序列建模技能吗?多个数据集都包含了精细的时间序列观测数据。

使用苹果健康数据预测运动时间的图表 — 作者提供

最好的消息是?这是你的数据。无需许可或权限。

系好安全带——你将收到各种各样的数据。你可以进行各种类型的分析和建模。你会对自己和别人对你的看法获得有趣的洞察。

为了专注于数据的洞察和简洁起见,本文不包含代码。不过,大家都喜欢代码,所以这里是一个链接,里面有我用来分析我的数据的几个笔记本。

获取数据

如果你列出拥有你数据的组织清单,你很快就会意识到这个清单很长。社交媒体公司、在线零售商、手机运营商、互联网服务提供商、家庭自动化和安全服务以及流媒体娱乐提供商只是存储有关你的数据的几个组织类别。从所有这些组织那里请求你的数据可能非常耗时。

为了让我的分析可行,我将数据请求限制在了Facebook、Google、Microsoft、Apple、亚马逊和我的手机运营商Verizon上。下面是一张总结我在请求和响应过程中的经验的表格:

作者提供的表格

这里是我用来请求我的数据的链接,以及供应商提供的任何数据文档的信息:

我使用Apple Watch来跟踪健康和健身数据。这些数据与您从一般的Apple网站请求的所有其他Apple数据是分开访问的。因此,我在上面的表格中显示了两个单独的Apple条目,并在下面的两个主题中讨论了Apple数据。

您接收到的数据的数量和类型将取决于您与某个公司的互动程度。例如,我很少使用社交媒体。所以我从Facebook收到的数据量相对较少并不令人意外。相比之下,我经常使用Apple产品和服务。我从Apple那里得到了广泛范围和大量的数据。

请记住,如果您在一家公司拥有多个身份,您将需要为每个身份请求数据。例如,如果Google通过一个电子邮件地址了解您的Google Play账户,通过另一个电子邮件地址了解您的Gmail账户,您将需要为每个地址进行数据请求,以便全面了解Google存储的关于您的数据。

在上面的表格中,我显示了我用于从目标公司请求数据的链接。这些链接是根据本文发布时的最新情况进行的,但可能会随时间变化。一般而言,您可以在公司的主页上找到有关请求您的数据的说明,这些说明通常出现在主页的底部,标题为“隐私”、“隐私权”或类似的链接。

微软官网底部 — 图片由作者提供

通常,您需要阅读描述您的隐私权的文档,并搜索“访问您的数据”、“导出您的数据”、“数据可移植性”或类似主题,以获取请求您的数据的实际页面链接。

最后,不同公司请求数据的流程、响应的及时性以及您收到的解释数据的文档的质量差异很大。请耐心和坚持。您将很快获得大量的数据和知识。

我的数据见解

以下是我从每个公司收到的数据文件的评论,以及在分析更有趣的文件后的一些观察。我还指出了一些利用这些公司的数据进行更深入的数据分析和建模的机会。

Facebook

我从Facebook下载的内容包括51个.json文件,不包括我的Facebook Messenger账户中包含的大量单独消息线程的.json文件。Facebook在下载网站上提供了一些关于其文件的高级文档。

关于我的Facebook登录活动、登录使用的设备、我的登录的估计地理位置以及有关我的账户活动的类似管理类型的数据出现在几个文件中。尽管这些文件中没有什么特别有趣的内容,但我要说的是,地理位置数据似乎非常准确,考虑到它通常是根据我在记录活动时的IP地址推断出来的。

真正有趣的数据开始出现在一个跟踪我在Facebook之外的应用和网站上的活动的文件中。我可以看到,这个文件中的数据,再加上Facebook已经拥有的来自我的Facebook个人资料的数据,形成了一个人口统计画像,从而使我成为特定的Facebook广告商的目标。这个Facebook之外的文件开始让您了解Facebook上的个人资料和广告过程是如何工作的。

让我们来看一下这个文件。它的名称是:

“/apps_and_websites_off_of_facebook/your_off-facebook_activity.json”

它包含了我在过去两年里在441个不同的非Facebook网站上进行的1,860次行动的记录。这是一个经过编辑的样本,展示了它记录的网站和行动类型:

作者提供的表格

几个科技和旅行相关的网站在我的Facebook之外的活动列表中排名靠前。现在让我们看看我的人口统计资料。

这个文件的名称是:

“ads_information/other_categories_used_to_reach_you.json”

它包含了Facebook根据我的Facebook个人资料数据、我的Facebook好友、我的Facebook活动以及我在Facebook之外的应用和网站上的活动等,为我分配的一些人口统计类别的列表。这是一个经过编辑的样本,展示了其中的一些人口统计类别:

作者提供的表格

上面的大多数类别都是基于我的个人资料、设备使用模式和我的朋友。我猜“频繁旅行者”和“频繁国际旅行者”这两个类别是基于我在Facebook之外的网络活动。到目前为止,这一切都没问题。

最后,有一个名为:

“ads_information/advertisers_using_your_activity_or_information.json”

文件标题中的“advertisers_using_your_activity_or_information”让我相信Facebook将我的数据提供给其广告商,然后广告商通过Facebook将广告定向给我。因此,这个文件列出了那些向我展示过广告的广告商,或者至少是基于我的数据考虑过向我展示广告的广告商。

该文件包含了1,366个不同的广告商。以下是其中一些广告商的小样本:

作者提供的表格

旅行网站、零售商、科技公司、健身中心、汽车维修公司、医疗保险公司、媒体公司(代表广告商)和其他公司都出现在列表中。这是各种各样的组织,但在许多情况下,我可以看出它们与我、我的偏好和习惯有关。

Facebook下载的其他文件包括Facebook搜索历史、搜索时间戳和浏览器Cookie数据。

Google

Google的导出功能被巧妙地命名为“Takeout”。Takeout网页列出了您可以请求数据的各种Google服务(如gmail、YouTube、搜索、Nest等)。它还显示了每个服务可用的文件以及每个文件的导出格式(json、HTML或csv)。大多数情况下,Google不会让您为单个文件选择导出格式。

作者提供的Google Takeout请求网站的部分截图

Google在提供每个文件的目的方面做得相当不错。然而,对于每个字段,没有任何文档。

我收到了94个文件。与Facebook一样,其中有与设备信息、帐户属性、偏好和登录/访问数据历史相关的常规管理文件。

一个有趣的文件是名为“…/Ads/MyActivity.json”的文件。它包含了作为搜索结果向我展示的广告的历史记录。

Ads/MyActivity文件中的一些条目的URL包含了一个clickserve域,例如:

作者提供的屏幕截图

根据Google的360广告网站,这些是由Google的广告商之一进行的广告活动中的广告,作为我进行的某些点击活动的结果向我展示的。该文件没有提供任何关于我采取了什么行动导致广告被展示的信息。

文件中的“title”列区分了“Visited”网站和“Searched”主题。所有“Visited”记录的“details”列中都有“From Google Ads”(参见上面的示例),这让我相信Google是根据我访问了特定网站而向我展示广告的。

“Searched”记录显示了我直接访问的网站(macys.com、yelp.com等)。“details”列显示了这些网站,而“title”列显然显示了我在这些不同网站上搜索的内容。例如:

作者提供的屏幕截图
作者提供的屏幕截图

我发现另一个有趣的文件名为‘…/My Activity/Discover/MyActivity.json’。它是谷歌应用程序中“发现”功能(以前是谷歌Feed功能)向我提供的主题建议的历史记录(有关发现功能的更多信息请参阅此处)。发现主题是根据您的网络和应用活动选择的,假设您允许谷歌使用您的活动来指导发现主题。

尽管我不允许发现使用我的网络和应用活动,但发现仍然向我呈现了一些与我相关的主题建议。以下是几天内最频繁呈现的主题的编辑样本:

访问您的个人数据 四海 第13张

我们在这里看到了技术和旅行的反复出现的主题,以及我们将在苹果文件中看到的一个新主题 —— 音乐!

谷歌在其下载中包含了跟踪谷歌产品和服务活动历史的多个文件。例如,我收到了我访问developers.google.com和cloud.google.com网站以获取培训和文档资源的历史记录。这些数据没有提供令人信服的见解,但它确实提醒我想要重新访问和进一步学习的主题。

提取的其他历史数据包括在我的Gmail帐户内执行的搜索和操作;搜索图像的搜索请求;通过谷歌地图应用程序搜索的地点、请求的方向和查看的地图;在网络上搜索视频(YouTube之外)的搜索;在YouTube上进行的搜索和观看历史记录;以及我在谷歌中存储的联系人,可能是在Gmail中。

与Facebook不同,谷歌不提供关于谷歌为我建立的人口统计资料的任何信息。

请注意,您可以通过访问myactivity.google.com查看您在谷歌产品和应用程序中的活动数据:

作者提供的屏幕截图

虽然您无法从此网站导出数据,但您可以浏览数据,以便了解您可能希望通过Google Takeout网站导出的数据类型。

Microsoft

Microsoft允许您通过Microsoft隐私仪表板导出一些数据。对于隐私声明页面的“如何访问和控制个人数据”部分中未在仪表板上提供的个别Microsoft服务(例如MSDN、OneDrive、Microsoft 365或Skype数据),您可以使用链接。同一页还会引导您填写一个网络表单,如果您正在寻找任何以上方法都无法获得的数据。

我选择导出通过隐私仪表板可用的所有数据。这包括浏览历史记录、搜索历史记录、位置活动、音乐、电视和电影历史记录以及应用程序和服务使用数据。我还要求导出我的Skype数据。我的导出包括四个csv文件、六个json文件和六个jpeg文件。

导出中未包含任何文件文档,并且在Microsoft网站上也没有找到任何文件文档。然而,文件中的字段名称相当直观。

从Microsoft文件中得出的一些有趣观察:

文件‘…\Microsoft\SearchRequestsAndQuery.csv’包含了我在过去18个月内进行的搜索的数据,包括搜索词和(如果有的话)我从搜索结果中点击的网站。看起来这些数据仅适用于我通过Bing或Windows搜索进行的搜索。

根据数据,我似乎只有40%的时间(870次搜索中的347次)在搜索结果中点击了链接。从这个数据可以推断出,我没有点击链接的搜索要么是搜索条件不好,返回了与主题无关的结果,要么是我通过阅读搜索结果中的链接预览就能得到我想要的答案。我不记得经常需要重新搜索,而且我知道我经常在链接预览中看到我需要的答案,因为我很多搜索都是关于编码语法的提醒。无论如何,我对40%的点击率感到有些惊讶。我本来期望它会更高。

Skype数据中没有太多有趣的内容。它包含了我和其他Skype会议参与者之间的应用内消息线程的历史记录。还包括了一些通话中参与者的图像的.jpeg文件。

Apple Fitness

我不得不单独访问我从苹果导出的健康和健身数据,与其他数据分开。健康和健身数据可以从iPhone上的健康应用程序中访问。您只需点击健康应用程序屏幕右上角的图标。它会带您进入个人资料屏幕,然后您点击屏幕底部的“导出所有健康数据”链接:

作者的屏幕截图

我的健康导出包括将近500个.gpx文件,总计102兆字节。它们包含了我在过去几年中记录的锻炼的路线信息。另外48个文件包含了我在Apple Watch上进行的自测中的5.3兆字节的心电图数据。

名为“…/Apple/apple_health_export/export.xml”的文件包含了真正有趣的数据。对我来说,它有770兆字节,包含了1956838条记录,涵盖了大约七年的多种不同的健康和运动测量数据。一些测量的活动类型如下:

作者的表格

请注意,苹果记录数据的频率因活动类型而异。例如,活跃能量消耗是每小时记录一次,而上楼梯速度只在上楼梯时记录,这导致了这两种活动类型之间观测计数的巨大差异。

每个观测记录的数据包括记录观测的日期/时间,测量活动的开始和结束日期/时间,以及记录活动的设备(iPhone或Apple Watch)。

在他的优秀的VoAGI文章“使用Python和Apple Health分析您的健康”中,Alejandro Rodríguez提供了我用来解析export.xml文件并创建Pandas数据框架的代码。(谢谢Alejandro!)在选择了一年的数据子集并将其按天和活动类型进行分组和聚合之后,我发现了一些有趣的事情。

正如我所怀疑的那样,我在旅行时的平均活动水平与我在我所称之为家的城市(奥斯汀或芝加哥)时的平均活动水平不同。为了看到这一点,我必须使用前面提到的.gpx运动路线文件中的纬度和经度数据。这使我能够确定哪些路线在家庭城市中,哪些路线是在我旅行时发生的。然后,我将该位置数据与我的活动摘要数据合并。然后,按活动类型和位置(家庭城市或旅行)进一步汇总。这是合并的模式:

作者的图片

在芝加哥期间,我住在一栋有电梯的公寓楼里,所以平均攀爬楼梯的次数大幅下降并不令人意外。令人惊讶的是芝加哥与奥斯汀相比的活动水平增加。我在这两个地方的锻炼计划非常相似,但我在芝加哥做更多的工作。我认为这是因为我在芝加哥更多地步行,而不是大部分时间开车。显然,我需要增加在奥斯汀锻炼的时间。

像上面这样发现趋势的事情,在苹果健康应用程序的标准图表中是看不到的,这是健康数据的一个很好的用途。

鉴于数据非常完整且通常干净,它也非常适合建模。例如,这是基于一年时间段使用Facebook的Prophet模型的我的锻炼分钟数的时间序列预测:

使用默认的每周季节性,没有年度季节性的锻炼分钟预测 - 作者的图片

这是相同的预测,但启用了年度季节性,并根据我的位置(奥斯汀、芝加哥或旅行)手动添加了每周季节性:

使用年度季节性和手动每周季节性预测运动分钟数 — 图片由作者提供

上面的默认每周季节性模型(第一个图)在拟合训练数据方面比添加自定义季节性项的模型(第二个图)效果更差。然而,默认季节性模型在预测未来的运动分钟数方面要好得多(尽管仍然不是很好)。毋庸置疑,超参数调整将有助于改善这些结果。

不同模型的平均绝对百分比误差 — 图表由作者提供

这只是您可以使用健康数据进行实验的模型类型的示例。您想尝试使用非常详细的时间序列数据吗?看看锻炼路线文件。它们包含了您记录的每一秒锻炼的观测数据,包括纬度、经度、海拔和速度字段。

Apple — 非健身/健康

您可以在Apple的主要网站上请求下载所有非健身/健康数据。对我来说,这总共有84个文件,主要是.csv和.json文件,还有一些.xml文件。我还收到了数百个.vcf文件,每个文件对应我在Apple设备上的每个联系人,总共下载了68兆字节的数据,不包括.vcf文件。

Apple之所以与众不同,是因为它为每个数据文件提供了全面的文档。其中包括对每个字段的解释,尽管有些定义比其他定义更有帮助。这些文档帮助我解释了一些看起来有趣的数据文件。

与大多数其他导出文件一样,Apple的文件包括正常的管理数据,包括各种应用程序的首选项、登录信息和设备信息。我在这些文件中没有发现任何值得注意的东西。

与Apple Music相关的文件有几个,这是我订阅的其中一项服务。文件的标题如下:

  • “…/Media_Services/Apple Music — Play History Daily Tracks.csv”;
  • “…/Media_Services/Apple Music — Recently Played Tracks.csv’’;以及
  • “…/Media_Services/Apple Music Play Activity.csv”

其中包含的信息如下:

  • 播放歌曲的日期和时间;
  • 播放持续时间(以毫秒为单位);
  • 每次播放的结束方式(例如,是否播放到了歌曲的结尾,或者我跳过了这首歌);
  • 歌曲被播放的次数;
  • 歌曲被跳过的次数;
  • 歌曲标题;
  • 专辑标题(如果有);
  • 歌曲的流派;以及
  • 歌曲的播放来源 — 我的音乐库、播放列表或者Apple的电台频道之一。

我的文件中包含了13,900到20,700条记录,具体取决于文件的用途。这些数据涵盖了近七年的歌曲播放情况。

Apple记录了有关歌曲播放结束方式的各种数据,可能是为了向我推荐其他歌曲。歌曲播放结束的原因包括:

作者提供的表格

为了进行下面所示的分析,我专注于“NATURAL_END_OF_TRACK”、“TRACK_SKIPPED_FORWARDS”和“MANUALLY_SELECTED_PLAYBACK_OF_A_DIFF_ITEM”这些结束原因。

有时我会重复播放我喜欢的歌曲。我有一个问题:“我会过度地反复播放喜欢的歌曲吗?”我使用Apple的数据回答了这个问题:

作者提供的表格

上面的表格总结了我播放一些喜爱歌曲的次数(“播放次数”)以及我播放这些歌曲的天数(“播放天数”)。看起来我通常每天只播放一首歌。此外,由于某些歌曲的播放次数少于天数,如果我最近听过这些歌曲太多次或者这首歌曲不适合我当前的心情,我必须跳过一些喜欢的歌曲。所以,这里没有过度沉迷于播放!

我还想知道我是否在一周的不同日子、一天的不同时间或者甚至一年的不同月份偏爱某种类型的歌曲。我的直觉告诉我是的。通过苹果的数据,很容易看出我在不同时间播放的音乐类型。例如,下面是我每个月播放最频繁的音乐类型:

作者提供的图片

显然,我偏爱摇滚歌曲,偶尔会加入一些另类和流行音乐。七月和八月似乎是我更喜欢多样性的月份。

话虽如此,我对自己似乎播放摇滚乐的频率感到惊讶。诚然,我喜欢摇滚乐。但我也相信我对音乐有相当广泛的品味。

因此,我对苹果数据中分配给歌曲的音乐类型的准确性产生了质疑。首先,我文件中的22,313次歌曲播放中有10,083次没有分配音乐类型。此外,分配的音乐类型之间存在很多重叠。例如,我的数据中不同歌曲被分配了“R&B/Soul”、“Soul and R&B”、“Soul”和“R&B / Soul”等不同的音乐类型。如果我将所有歌曲的音乐类型重新分配为一致的音乐类型命名方案,上面图表中的总数肯定会有所不同。

与其花时间更新音乐类型,我决定进行另一个测试,以确定图表中的趋势是否真实反映了我的播放模式。由于苹果在数据中包含了歌曲播放结束的原因,我查看了是否经常跳过摇滚歌曲,这表明当播放太多摇滚歌曲时,我会尝试播放其他类型的音乐。

作者提供的图表

结果表明,我跳过摇滚歌曲的频率并不比我经常听的其他类型的歌曲更高。我必须面对这个事实——我是一个铁杆的摇滚乐迷。

另一个有趣的文件名为“…/Media_Services/Stores Activity/Other Activity/App Store Click Activity.csv”。虽然我在这里没有进行分析,但我推荐给任何想要了解零售商可能想要跟踪其网站活动的数据类型的人。对我来说,它包含了4,900多条记录,详细记录了我在应用商店和显然在苹果音乐中的活动历史。文件中包含了我采取的各种操作、日期/时间、A/B测试标志、搜索词和向我展示的数据(使用了“impressed”这个术语)等项目。

最后一个可能有趣的分析文件名为\\Media_Services\\Stores Activity\\Other Activity\\Apple Music Click Activity V3.csv。它包含了我使用苹果音乐时的IP地址所在城市和经纬度。对我来说,该文件有10,000条记录。

Verizon

经过长达80多天的等待,Verizon通知我可以下载我的数据。它包括了17个csv文件,总共1.4兆字节的数据。其中大部分文件涵盖了账户管理信息(手机线路描述、设备信息、账单历史、订单历史等)、Verizon发送给我的通知历史以及我最近的短信历史(但不包括短信内容)。虽然提供了通话历史和数据使用情况文件,但除了注明数据被“安全屏蔽”外,它们是空的。

Verizon提供了两个文档文件。其中一个包含了34个可能包含在下载中的文件的名称和一般描述。包含的文件取决于您使用的Verizon服务。第二个文档文件包含了3,091个可能出现在文件中的数据字段的描述。虽然数据字段的描述是有帮助的,但它们缺少一些细节。例如,很多字段被描述为包含各种目的的代码,但代码本身及其含义并未描述。

I had trouble accessing your link so I’m going to try to continue without it.

一个非常有趣的文件名为“…/Verizon/General Inferences.csv”。它包含了关于我和我家其他人的大量人口统计信息。以下是Verizon的文档对该文件的描述:

“General Inferences文件提供了一些一般性的假设和推论,以便在我们的平台上提供更相关和相关的内容。这可能包括属性、偏好或意见等信息。”

根据人口统计特征的性质,我认为其中大部分是Verizon从外部数据聚合器获取的,而不是直接从我这里收集的。人口统计特征的数量和范围远远超过了我直接提供给Verizon的任何信息。

事实上,Verizon的文档中还提到了另一个名为“General”的信息文件(未包含在我的下载中)。文档称“General”文件包含来自外部信息源的数据。我猜想“General Inferences”文件中的信息也来自这些外部来源。其中一些财务数据可能来自Verizon要求其客户提供的信用报告。

我的General Inferences数据中包含了332个人口统计特征。以下是一个缩略列表,包括一些更令人惊讶的特征:

General Inferences文件中人口统计特征的缩略列表-作者提供的表格

Verizon显然使用所有的General Inferences特征来对我进行营销和留住我作为客户。如上列表所示,关于我的配偶和孩子的特征也包括在内。您可以在此处查看完整的332个特征列表。

我发现其中一些特征真的非常不寻常,例如:

作者提供的表格

人们不禁要想知道Verizon是否真的需要这些类型的数据元素来帮助提供服务,以及如果需要,Verizon如何使用它们。

亚马逊

亚马逊提供了214个文件,总共4.93兆字节的数据。其中几个文件涵盖了以下内容:

  • 账户偏好;
  • 订单历史;
  • 履行和退货历史;
  • 观看和收听历史(亚马逊Prime Video和亚马逊音乐);
  • Kindle购买和阅读活动,
  • 以及包括搜索词在内的搜索历史。

如果我是Alexa的客户或Ring的客户,我认为我也会收到关于我在这些服务上的活动的数据。

六个.txt文件包含了一些下载数据文件的高级描述。几个.pdf文件包含了下载文件中字段的文档(例如,“Digital.PrimeVideo.Viewinghistory.Description.pdf”文件)。

来自亚马逊最有趣的文件与亚马逊、其广告商或“第三方”所关联的营销受众有关。我推测第三方是亚马逊从中购买数据的数据供应商。

“…/Amazon/Advertising.1/Advertising.AmazonAudiences.csv”文件包含了亚马逊自己分配给我的受众。以下是其中21个受众的示例:

亚马逊分配给我的受众-作者提供的表格

当考虑到我购买或搜索的产品时,亚马逊自己的受众分配基本上是准确的。

“…/Amazon/Advertising.1/Advertising.AdvertiserAudiences.csv”文件显然包含了一份亚马逊广告商带来的自己的受众列表,其中包括我。该文件包含了50个广告商。以下是一个示例:

亚马逊广告商中将我列入其受众列表的广告商-作者提供的表格

我与列表中的一些广告商做生意或拥有他们的产品(例如Delta、Intuit、Zipcar),所以我知道自己是如何出现在他们的受众列表中的。我与列表中的其他人没有任何联系(例如AT&T、红牛、加拿大皇家银行),所以我不确定自己是如何出现在他们的受众列表中的。

根据亚马逊,文件

“…/Amazon/Advertising.1/Advertising.3PAudiences.csv”

包含了一份由第三方创建的

“包含您的受众群体”

的列表。

这个文件的准确性很差。总共列出了33个受众群体,其中28个专注于汽车所有权。剩下的四个涵盖了性别、教育水平、婚姻状况和家属。以下是与汽车相关的受众群体的样本:

第三方供应商提供的与汽车相关的受众群体分配样本 — 作者截图

虽然文件中的性别/教育水平/婚姻状况类型的分配是准确的,但其中与汽车相关的分配只有少数是正确的,大多数都不正确。而且,我对汽车的兴趣并没有到需要28个受众群体的程度。幸运的是,亚马逊在向我推荐产品或视频时似乎忽略了这些数据。

结束语

在本文中,我希望向您展示与您做生意的公司可以获得的各种各样的数据。这些数据可以让您了解这些公司对您的看法,同时也可以让您对自己有一些令人惊讶的认识!

我们已经看到,一些公司正确地识别了我对技术和旅行的兴趣,而另一家公司错误地将我视为狂热的汽车爱好者。在令人大开眼界并有些不安的时刻,我意识到另一家公司对我家庭的人口统计信息有着广泛的了解。

我发现我需要在我称之为家的两个地方中的一个地方增加我的锻炼计划,尽管我原以为我在两个地方的锻炼是相等的。我发现一些公司(Facebook、Google)对我的个人资料没有很强的观点。然而,Verizon对我的人口统计画像非常准确。

各个公司提供的数据为实验提供了丰富的原始材料。这些数据可以进行深入分析、建模和可视化活动。例如,许多观察结果都提供了地理坐标和时间戳,使您可以可视化或建模您的活动。

我希望您通过下载个人数据找到自己的有趣见解。如果您在与我提到的这些公司之外的公司合作中有值得注意的经验,请告诉我。

这是您的数据,现在去发掘吧!

Leave a Reply

Your email address will not be published. Required fields are marked *