外汇

研究人员的工作是Facebook-Cambridge Analytica数据分析和政治广告骚动的中心,他的方法与Netflix用于推荐电影的方法非常相似。在给我的电子邮件中,剑桥大学的学者Aleksandr Kogan解释了他的统计数据模型处理剑桥Analytica的Facebook数据他声称的准确性表明它与基于种族,年龄和性别等人口统计数据的既定选民定位方法有关如果得到证实,Kogan的帐户将意味着剑桥Analytica使用的数字建模几乎不是虚拟水晶一些人已经声称,但Kogan提供的数据也显示了什么是 - 实际上是 - 实际上可能通过将个人数据与机器学习结合起来用于政治目的关于一个关键的公众关注点,但是,Kogan的数字表明了关于用户个性或者信息的信息。 “心理图表”只是模型定位的一个不起眼的部分公民严格来说,这不是一个人格模型,而是一个将人口统计学,社会影响,人格和其他一切都归结成一个大的相关问题的人。这种全面关联和呼唤它的个性化方法似乎创造了一个有价值的竞选工具,即使出售的产品并不像收费一样,特朗普竞选顾问Cambridge Analytica在2016年美国期间使用了来自5000万Facebook用户的数据来定位数字政治广告。总统选举,Facebook已经失去了数十亿的股票市场价值,大西洋两岸的政府已经开始调查,一个新生的社会运动正在呼吁用户#DeleteFacebook但一个关键问题仍然没有答案:剑桥Analytica是否真的能够有效根据公民的个性特征 - 甚至是他们的“内心恶魔”作为公司的告密者,向公民发送竞选信息是谁?如果有人知道Cambridge Analytica用其庞大的Facebook数据做了什么,那就是Aleksandr Kogan和Joseph Chancellor这是他们的创业公司Global Science Research通过性格测试收集了27万Facebook用户和数千万朋友的个人资料信息应用程序称为“thisisyourdigitallife”我自己研究的一部分侧重于理解机器学习方法,我即将出版的书讨论了数字公司如何使用推荐模型来建立受众我对Kogan和Chancellor的模型如何工作有所预感所以我通过电子邮件向Kogan发送电子邮件询问Kogan是还是剑桥大学的研究员;他的合作者Chancellor现在在Facebook工作在一个非凡的学术礼貌展示中,Kogan回答他的回应需要一些拆包,以及一些背景2006年,当它仍然是一个DVD-by-mail公司时,Netflix提供了100万美元的奖励任何开发出更好的方式来预测用户电影排名的人都比公司已经拥有一个惊人的顶级竞争对手是一个使用假名Simon Funk的独立软件开发人员,他的基本方法最终被纳入所有顶级团队的条目Funk改编了被称为“奇异值分解”的技术,将用户对电影的评级浓缩为一系列因素或组成部分 - 基本上是一组推断类别,按重要性排序如Funk在博客文章中所解释的那样,“因此,例如,一个类别可能代表动作片,顶部有很多动作的电影,底部的慢动作,以及喜欢动作片的相应用户顶部,以及那些喜欢底部慢电影的人“因素是人工类别,它们并不总是像人类会想到的那种类别.Funk早期Netflix模型中最重要的因素是由喜欢电影的用户定义的“珍珠港”和“婚礼策划师”同时也讨厌像“迷失在翻译中”或“一尘不染的心灵的永恒阳光”这样的电影他的模型展示了机器学习如何找到人群和电影组之间的相关性,即人类他们自己永远不会发现Funk的一般方法使用了50或100个最重要的因素,用户和电影对每个用户如何评价每部电影进行了不错的猜测这种方法通常被称为降维或矩阵分解,并不是新的 政治科学研究人员已经表明,使用唱名表决数据的类似技术可以预测国会议员投票的准确率达到90%。在心理学中,“五大”模型也被用来通过将人格问题聚集在一起来预测行为。类似的答案仍然是,Funk的模型是一个很大的进步:它允许该技术很好地处理大量数据集,即使是那些有大量缺失数据的数据集 - 比如Netflix数据集,其中典型用户只评估了数千个中的数十个电影。公司的图书馆Netflix奖竞赛结束十多年后,基于SVD的方法或隐含数据的相关模型仍然是许多网站预测用户阅读,观看或购买内容的首选工具。这些模型可以预测其他事情也是在2013年,剑桥大学的研究人员Michal Kosinski,David Stillwell和Thore Graepel发表了一篇关于Facebook数据预测能力的文章,usi通过在线人格测试收集的信息他们的初步分析几乎与Netflix奖项上使用的相同,使用SVD将他们“喜欢”的用户和事物分类为前100个因素。论文显示了用户制作的因子模型仅仅Facebook“喜欢”在区分黑人和白人受访者方面准确率为95%,在区分男性和女性方面准确率为93%,88%准确地区分那些被认定为男同性恋者的男性和那些认定为直男性的人甚至可以正确区分共和党人来自民主党85%的时间用于预测用户在“五大”人格测试中得分的分析也是有用的,但并不准确。几周之内,Facebook已经让用户喜欢隐私Kogan和Chancellor,当时也是剑桥大学的研究人员,开始使用Facebook数据进行选举目标,这是与Cambridge Analytica的母公司SCL Kogan合作的一部分,邀请Kosinski和Stillwell加入他的项目,但据报道,据报道,Kogan和Chancellor可能已经反向设计了剑桥分析师Kogan的Facebook“喜欢”模型否认了这一说法,并表示他的项目“使用我们自己的数据建立我们所有的模型,使用我们的收集自己的软件“Facebook Photo:Getty当我跟踪故事的发展时,很明显Kogan和Chancellor确实通过thisisydigigitife应用程序收集了大量他们自己的数据他们当然可以构建一个预测性的SVD模型,如Kosinski和Stillwell的特色已发表的研究所以我给Kogan发了电子邮件,询问他是否做了这件事让我感到意外他回信说:“我们没有完全使用SVD,”他写道,并指出,当一些用户比其他用户拥有更多“喜欢”时,SVD可能会挣扎。相反,Kogan解释说,“这种技术实际上是我们自己开发的......不是在公共领域的一些事情“没有详细说明,Kogan将他们的方法描述为”多步共现方法“然而,他的信息继续证实他的方法确实类似于SVD或其他矩阵分解方法,比如在Netflix奖竞赛中,以及Kosinki-Stillwell-Graepel Facebook模型降低Facebook数据的维度是他的模型的核心Kogan建议使用的确切模型并不重要,但重要的是其预测的准确性根据对于Kogan来说,“预测分数与实际分数之间的相关性......在所有人格维度上都在[30%左右]”相比之下,一个人以前的五大分数约为70分。当他们重新考试时,准确地预测他们的分数达到80%准确无法独立验证Kogan的准确性声明当然,任何处于如此高调丑闻中的人都可能有动力低估他或她的贡献。 Kogan向一位越来越不相信的Anderson Cooper解释说,事实上,这些模型实际上并没有很好地发挥作用事实上,Kogan所说的准确性看起来有点低,但可信的Kosinski,Stillwell和Graepel报告的结果相当或略好一些,有几个使用数字足迹预测个性的其他学术研究(尽管其中一些研究的数据多于Facebook“喜欢”) 令人惊讶的是,如果现成的解决方案看起来同样准确,那么Kogan和Chancellor就会遇到设计自己的专有模型的麻烦。重要的是,该模型在个性得分上的准确性可以将Kogan的结果与其他研究进行比较在猜测人格和政治变量方面,发布的具有相同准确度的预测模型在猜测人口统计和政治变量方面更为准确。例如,类似的Kosinski-Stillwell-Graepel SVD模型在猜测党派关系方面准确率高达85%,即使没有使用除Kogan之外的任何个人资料信息模型具有相似或更好的准确性即使是关于朋友或用户的人口统计数据的少量信息也可能将此准确度提高到90%以上关于性别,种族,性取向和其他特征的猜测可能会超过90%的准确性批评,这些猜测对于最活跃的Facebook尤其有用用户 - 模型主要用于定位的人员用于分析活动较少的用户可能不会在Facebook上进行分析了解模型的构建方式有助于解释Cambridge Analytica关于角色(或缺乏角色)的明显矛盾的陈述,即个性剖析和心理特征在它的建模中发挥它们在技术上与Kogan所描述的一致。像Kogan这样的模型将对任何用户组中的每个变量进行估计这意味着它将自动估计每个选民的五大人格分数但这些个性分数是模型的输出,而不是输入所有模型都知道某些Facebook喜欢和某些用户倾向于组合在一起使用这个模型,剑桥Analytica可以说它正在识别低开放度和高度神经质的人但是相同的模型,对每个用户具有完全相同的预测,就像准确的cl一样旨在识别受教育程度较低的老年共和党男性Kogan的信息也有助于澄清剑桥Analytica是否真正删除其Facebook数据的混乱,当数据建立的模型似乎仍在流传,甚至进一步发展时的困惑尺寸减小模型是以数学方式简单地表示数据这就好像剑桥Analytica拍摄了一张非常高分辨率的照片,将其调整为更小,然后删除了原始照片仍然存在 - 只要剑桥Analytica的模型存在,数据有效地做了马修辛德曼是乔治华盛顿大学媒体和公共事务副教授这篇文章最初出现在The Conversation阅读原文文章照片: