爬虫收割隐私黑箱埋葬灵魂
01
2006年,已经做了几年天使投资人的唐宁,自掏腰包借款给100多个大学生参加培训收到了回款,因此受到鼓舞,在北京SOHO现代城的三室一厅里创立了宜信公司。在这里一同办公的,还有他刚创办的华创资本,招进了早已熟识的第二号员工吴海燕,后者后来成了华创资本的当家人。
36岁这一年,从阿里巴巴安全部技术总监岗位上辞职的蒋韬找到吴海燕说,他想做一个SaaS级应用而服务所有网站,名叫同盾科技。吴海燕很快给了蒋韬第一笔天使投资。
那时,市场传闻一条不成文的规则,从阿里中层出来的人创业,天使风投100万美元起步。华创资本和IDG资本给蒋韬的则是千万元人民币的天使轮。
蒋韬出来单干之前两年,即2011年,在硅谷工作了11年的汪德嘉回国了。汪德嘉是个留美数学博士,在VISA等公司做大数据分析、金融反欺诈技术工作,回来后就创办了通付盾,仍是老买卖。
一次,汪德嘉带队在杭州参加一个安全技术交流会,遇见了还在阿里巴巴做安全部技术总监的蒋韬和团队。两人聊得投机,很快,双方签订了技术交流合同,两个年轻人走向志同道合的路。不到几年时间,一个成为网络反欺诈领域的凶猛后生,一个成为数字身份认证领域的不得不提的主。
数据产业起于草莽,蒋韬、汪德嘉们也不得不剑悬颅顶。友商们数据倒卖、侵权爬虫、窃取隐私的事情太多了。干这事,像浅水行舟,还百舸争流,水不仅搅浑了,身边的人也一个个触礁了。
谁也没有想到,几年后,两人突然翻脸,汪德嘉指蒋韬偷窃通付盾核心技术。蒋韬则一纸状书将汪德嘉告上法庭,顿时反目成仇。
02
趟数据这趟浑水的,不止蒋、汪。
数据产业的淘金热,在2007年前后出现,于2013年前后兴起。与P2P的展业有着相当的轨迹。
同盾科技、百融金服、聚信立、GEO集奥聚合、白骑士、算话征信......大多涌现于2014年前后两年。这些第三方数据公司的出现,迅速满足并激活了消费金融、P2P甚至银行金融机构的风控、获客、营销需求。
通观第三方数据企业的合作体量,就知道市场需求并不少。截至目前,第三方数据企业的聚信立合作企业超过2900家、上海的新颜科技合作机构2500家以上;同盾科技的数聚魔盒,在2019年3月份下线前,合作企业2000多家。这些第三方数据公司的主顾们,主要来自互联网金融机构,包括了P2P网贷、消费金融、现金贷等。
IDC名为《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到2025年的175ZB(1ZB相当于1.1万亿GB)。
资料来源:数据时代;数据来源:IDG
做金融的,无论银行、消费金融、P2P,言必称大数据风控。虽然有效性现在还能定论,但在品牌营销、精准获客上,这两年确实让做地推的都舍弃了原本的路子。银行们找腾讯、阿里、百度合作,P2P、现金贷、消费金融们则有同盾、通付盾们,大家各自配对。
问题是,这些第三方数据有多少是清白的。那些流量巨头的数据后门、个体甚至监管,都不容易摸到。
一些明目张胆做数据买卖的,就难免被拉出来惩戒示众。
自称数据第一股的北京“数据堂”,2014年挂牌新三板。2017年7月山东公安上门时,这家公司日均传输公民个人信息1亿3000万余条,累计传输数据压缩后约为4000G。
数据堂的数据,大多是用自营众包平台、公共领域共享、网络爬虫爬取方式获取。一份“车辆标准图像数据”的数据包在网页公开售价20000元。新华视点记者曾问他们客服,这是否会涉嫌侵犯用户隐私。客服声称,这些照片都是摆拍,获得了授权。但该数据产品却明确写着“来自交通卡口监控视频截取”,并非摆拍。
被抓了几十人后,警方侦查发现,数据堂公司向不同的多家公司各售卖了1万条至70万条不等的公民个人信息。
数据堂案件一审判决时,数据堂首席运营官柴银辉、营销产品部副总裁胡晓敏都被判有期徒刑三年,两人都不服,以“数据堂公司系单位犯罪”理由提起上诉,终被驳回。
之后,数据堂正常运行。
有些“铁打的营盘,流水的罪犯”的意思。
03
我曾陷于解这样一个谜:前一天我和朋友聊过的旅游想法,第二天就出现了微信底部的携程订票广告,我在私底下谈过的某款车,之后就出现在了今日头条的短视频里。我想,究竟是谁走漏了风声?
像一个被扒光的人,却不知道如何被谁扒光了,而且扒得越来越彻底。
以数据所构建出虚拟生活的我们,活在一个巨大的“圆形监狱”之中——所有囚室对着中央监视塔里的数据处理器,每一个囚室有一前一后两扇窗户,一扇朝着中央塔楼和所有人的监视,一扇背对着中央塔楼赢得短暂和半透明的自由。监视者可以观察到囚室里的罪犯的一举一动,囚徒却不知是否被监视以及何时被监视,时刻处于忧虑之中。
英国哲学家杰里米·边沁(Bentham)把圆形监狱描述为“一种新形式的通用力量”(a new mode of obtaining power of mind over mind, in a quantity hitherto without example)。
几个月前,马化腾喊出了“科技向善”,实在是有些牵强了,因为资本逐利,技术在资本手里,简直就是一个黑箱了。
别忘了,中国的互联网大公司,在数据上都有不光彩的过去:蚂蚁金服闹过个人信息被默认勾选进《芝麻服务协议》事件;京东金融曾曝出留存用户图片缓存和10G数据外泄事件;至于抨击百度作恶,已成政治正确了。
这两年,我们已几乎走进科幻电影中的现实。
2002年上映的科幻惊悚电影《少数派报告》,曾出现这样一幕(大意):汤姆克鲁斯扮演的约翰·安德顿进入商场,大屏幕上出现一个个定制给他个人的广告,并推销给他说,“约翰·安德顿先生,您上一次买夹克已经过去3年了,您要买一件新的皮夹克吗?”
我们的个人信息,大抵如是。
个人信息、隐私,在电脑算法、机器学习的挟持下,输出给个人的广告或信息,都是经过数据精心算计的结果。
在算法的挟持下,放贷公司的广告会给出令你心花怒放的说辞,也会在你申请贷款时,给你滴水不漏的贷款价格。这背后,是批量放贷的大数据信审和不可琢磨的技术黑箱。
04
这些年,数据黑箱现象隐而不发,但蔚为大观。
消费金融公司虽然给了你一笔利率不错的贷款,但你无法知电脑算法在审贷决策过程中,是否出现程序错误,是不是对你有算法歧视,是不是将学历、种族、户籍信息作为风险定价的依据,你的社交行为数据、朋友圈层次在多大程度上作为你利率定价的依据?这就是数据黑箱,看不见摸不着,却决定着对你的信贷定价。
法学教授弗兰克·帕特洛伊(Frank Partnoy)和普利策奖获得者杰西·艾辛格(Jesse Eisinger)曾于2013年年初共同研究过“美国银行的内幕”,他们在报告中把银行描述为“掩盖了巨大风险的‘黑箱’,这些风险可能会再次击垮经济”,因为黑箱不可捉摸,不可明察。
金融科技化之后,越来越多的黑箱产生,并未使得金融科技更加透明。
黑箱的种子与土壤到处都是,如黑产军团、数据倒卖行为、大数据信审、人工智能深度学习、机器决策…
金融科技的技术和数据黑箱使得监管越来越难。
一家借贷平台,在大数据风控的系统中输入一个人用户数以千计的社交数据、搜索数据、浏览数据、交易数据等,经过深度学习和决策模型的计算,最终可能将一个人的信用定为不及格。但这其中的具体决策过程是什么,企业不会告知你。
更甚至于,这个决策过程中出现程序错误、算法歧视时,电脑试图向程序员解释时,程序员也无法明白。
哥伦比亚大学的机器人学家 Hod Lipson 曾说:“这就像是向一条狗解释莎士比亚是谁。”
被问及Google公司如何对数据进行私下操作时,前首席执行官埃里克·施密特(Eric Schmidt)曾经回答:“Google的政策就是和警戒线打擦边球。”
05
2018年,欧盟颁布了一道了不起的法令——《一般数据保护条例》(GDPR)》。
它未被国人重视的严重性,正如它深远、前瞻的伟大性一样不可忽视。
这则法令最重要的两个原则在于:
1. 最大限度的保护个人隐私,严格限定企业、政府对个人信息数据的使用条件。将科技、人工智能、数据渗透阻挡于个人隐私之外。
2. 要求人工审查重要的人工智能中的算法决策,提供个别算法决策的详细解释或关于算法如何做出决定的一般信息。这一条款将大大降低技术黑箱问题的存在。
通俗并且简而言之,这两个原则,试图保护人类个体不受愈发失控的数据或技术黑箱之侵害。
如果不受限制,数据乱象将导致怎样的后果?
国内大数据企业常挂在嘴上的打击黑产、打击撸贷大军、欺诈军团,可实际上,数据产业有目前最大之一的黑产军团。
2014年,曾有过诈骗、敲诈勒索两次犯罪经历的“王成予”,创办了一家名为“巧达科技”的数据公司。仅仅一年多时间后,王成予的巧达科技掌握了1.6亿中国人的求职简历。
公司利用这些数据发布了全称叫“爱伙伴员工离职预报”的产品,能发现90%以上员工离职前的动态信息,最快30分钟内向企业管理者发出预报通知。
巧达科技和企业、猎头们在做的是一项拿产品换数据的勾当,交易着你我的简历,而将你我排除在外。
2019年3月24日,大数据行业盛传巧达科技被警方“一锅端”,原因或涉及未经授权收集公民个人信息。
我们回过头来再看,GDPR有它了不起的地方。
欧盟GDPR了不起的地方在于无视利益集团、牺牲科技革新的速度,将科技进步控制在可理解的天花板里,而非放任在失控的黑箱中。
一百年前,路易斯·布兰戴斯(Louis Brandeis)曾经发表言论:“阳光是最好的杀毒剂。”
在数据黑箱的失控下,蚂蚁金服或腾讯、百度们,甚至于美团、携程们,有可能成为金融科技领域的新权威者。
曾经我们舟船往来、书信有无,一封家书私藏50年,打听一个人的私密要聊很久的八卦。如今数据通了信息高速,但我还是发愿:个人不“裸体”示人,我愿隐姓埋名,外界就对我一无所知,BAT们不能左右。