大数据对我们的生活影响有多大?

大数据对我们的生活影响有多大?

一、信息及通讯科技的进步

「数码化」、「互联网」和「资讯及通讯科技」不断的进步,可以轻易有效地创造、收集、储存、连结及分析大量数据,带来「大数据」现象。

大数据对我们的生活影响有多大?

二、内容数据与情境数据

这些大数据大多是从我们在网上的社交联系、与机构的往来、及使用智能装置而产生的个人资料。 这些数据包括具「内容」的,例如Twitter讯自、短讯、电邮、电话、社交网络贴文、相片及短片。同时,通讯装置及服务供应商亦可产生及保留一些与这些通讯有关的「情境」数据(称为元数据),例如时间、地点、收发讯息者的资料及通讯长短等。

用互联网提供服务的企业能够检视我们具「内容」的数据。众所皆知,Google 可细阅Gmail用户的电邮内容,再根据内容而发送相关广告。有所不知的是元数据比通讯内容可以揭示更多私隐。元数据可描述谁与谁在何时通讯、有多频密、维时多久;发送人与接收者的所在地;谁与他们有联系等详细及全面的资料。因此,这些数据揭示了我们在个人、政治、社交、财务及工作多方面的资料,可以说是巨细无遗。

究竟网络搜寻、购物及浏览纪录只属于「内容」数据,还是「元数据」呢? 这只属学术性的区别。 更重要的是,互联网公司可从这些纪录中追溯个人非常私密及具揭示性的资料。正如Google行政总裁Eric Schmidt于2010年所说:「我们知道你身在何方、你到过甚么地方,甚至知道你在想甚么。」

大数据对我们的生活影响有多大?

三、利益与私隐风险的对比

无容置疑,大数据可以带来庞大的经济及社会效益,因为公司和政府可以利用这些数据进行高效率的分析。他们从不同的来源把数据连系起来,从而确认客户(或市民)的行为及事物互动的模式,并发掘新见解,以改善与客户(或市民)的关系,投其所好发出相关的广告、打击犯罪活动、改善医疗服务,及应用于其他生活不同的范畴。

大数据的分析工作,主要是拆解数据之间的相互关系。例如,2009年推出的Google流感趋势指标 (Google Flu Trends),目的是追踪世界各地的流感爆发状况:某地区愈多人透过Google搜寻流感的资料 ,便可推算出该地区愈多人感染流感病毒。同样地,零售巨企Target透过分析顾客的购物模式,可识别出24种货品(例如无香味润肤露、营养补充品等)来推测顾客可能怀孕,因而可以向目标顾客发出相关的优惠券。

虽然这些做法有其可取之处;但是从私隐及资料保障的角度来看,却有潜在的负面影响。

四、相互关系不等同因果关系

首先,相互关系并不一定意味有因果关系,充其量只可当为调查因果的引子。故此,虽然一些临床研究发现不吃早餐与过度肥胖有关系,但如果作出吃早餐可以「减肥」的结论,却是太妄断了

1、参与研究的人士可能缺少运动,因此在早上不感到肚饿,而体重仍会增加。他们亦有可能习惯晚睡,因而没有时间吃早餐,但进餐时却常吃「垃圾食物」; 在这些情况下,鼓励他们吃早餐只会导致愈发肥胖,弄巧反拙。

同样地,Google 流感趋势指标屡受批评不能准确预测流感

2、高估了流感的散播,原因是大多数以为自己患上流感而在Google搜寻有关流感资料的人,其实并无患上流感;常出现的情况是流感症状原来是因其他病毒所引致。

大数据可造成误导的另一个例子,是美国波士顿于2012年推出一项社区计划,原意是协助居民改善街道路面的坑洼情况。义工在街上驾驶时利用流动应用程序可自动记录路面凹凸的位置,提供实时信息,协助当局尽快作出修补,并有助长远规划。 但有关纪录倾向为较富有的地区提供修补道路的服务,因为该区智能电话渗透率较高。若这些偏差的数据没加以调整,社会资源的分配便会出现扭曲。

大数据对我们的生活影响有多大?

五、利用大数据的资料作归类

其次,利用大数据的资料来把个人归类亦带风险。例如,有些保险公司尝试利用信贷报告及生活模式资料,代替验血验尿,以决定投保人是否符合资格及保单条款。这做法的优点是可以为顾客提供较方便及便宜的服务,顾客只需在网上回答一些与健康状况无甚因果关系的问题,便可省却到代验所测试的皮肉之苦和昂贵费用,而完成投保。然而,依赖这些数据肯定会出错 。高风险的顾客可能会侥幸而受保;而健康正常的申请人却可能被拒,或莫名其妙地要缴付较高的保险金才能够投保,而他们在不知情下亦不能查阅及改正有关具误导性的的资料。

同样地,在打击恐怖主义方面,根据统计而推断出来的黑名单,无可避免地会出现漏误。一些恐怖分子不会被拦截,成为漏网之鱼,而无辜的乘客却可能会错误地被拒登机。你唯有希望自己不会有天倒霉地成为后者。

今天的美国,充斥着以「大数据」而得出的评分。这些评分是依据金融、人口、族裔、种族、医疗、社交、消费及其他资料编纂而成,用作把个人归成不同的类别以预测其行为及状况,例如消费模式、健康状况、诚信度、学业表现、就业及晋升潜力。这些评分可以是正确的,亦可以是不准确或误导的,值得关注的是这些评分往往缺乏透明度。受影响人士未必知道这些评分的存在、使用、背后因素及资料来源。因此,他们不能够提出异议、改正有关资料、或拒绝成为被评分的当事人。因此,有关评分的使用可以是带有歧视性、不公平及有偏见的。

六、侵犯私隐

大数据的使用可以有秘密监控之嫌。在上述提及的预测怀孕例子,Target「挖空心思」地钻研顾客数据来作分析,明显侵犯了私隐。事件的父亲是因收到Target寄来大量与怀孕有关的广告,而向Target作出投诉,因而才揭发其未成年女儿原来已怀孕三个月,弄得当事人非常尴尬。

最具启发性的例子可能莫过于2013年的斯诺登事件,揭露有关政府如何利用大数据对国民以至全球进行大规模监察,极度侵犯民众日常生活的私隐。美国国家安全局与世界各地的情报机构,利用程序从美国电话公司收集电话元数据,并监察各地民众在互联网上往来。这令我们记起Sun Microsystems行政总裁Scott McNealy于1999年的一席话:「你再没有私隐的了,接受吧!」

七、「去识别化」的资料

大数据的使用者,或会说他们只使用去识别化的资料,即没有姓名及其他个人身份代号的资料。他们认为把资料匿名化,私隐问题便不成立。然而,这推断值得商榷。

智能电话或个人计算机可因应手机的识别码、IP地址及「装置的个人独特设定」等资料被识认。由于这些个人通讯装置与我们几乎是形影不离,只要可追踪该些装置便等同可追踪我们 。

此外,大数据可以增加身份再识别的风险。在某些情况下,去识别化的资料可被人不经意地立即还原。万一资料外泄,后果可以十分严重。

在2006年,互联网巨企AOL因推出新的研究网站,公开了六十五万八千名用户的二千万个搜寻查询。虽然在列出搜寻纪录时,只用代号而不是真实姓名、用户名称或IP地址,但关注私隐的人士依然担心,仍可透过搜寻纪录,识别出个别用户的身份。事实上,在数日内,纽约时报便根据一些搜寻查询字眼,例如「六十名单身汉」、「健康的茶」及「乔治亚州Lillburn庭园设计师」,而可以无误地识别出其中一名用户是来自乔治亚州Lillburn的六十二岁寡妇。当别人检视她的搜寻查询(包括「尼古丁影响」、「口干」、「手震」及「躁郁症」),她的私生活便赤裸裸地暴露于人前。经公众强烈抗议最终导致AOL要公开道歉,并在十日内移除所有搜寻纪录。

大数据对我们的生活影响有多大?

结语

明智地使用大数据,可以丰富生活质素及提升生产力。然而,保障顾客的私隐及资料仍必须是优先考虑。我们面对的挑战,是要充分利用大数据的潜能,但同时又要减低其弊端,缔造双赢。

分享扩散:

改版

反馈

======= >>>>>>> b75eec8b3e680c1b60a08a6bb3f9cd752a33281c