只需4组数据,还原你的购物模式,具体算法是咋实现的

其中包括了来自某个经合组织国家的110万人在1万个商家的消费记录。这份数据集很简单,只有用户ID、支付数额、精确到天的支付时间和精确到商家的地点,而没有明显的身份信息,没有电话号码,没有姓名,也没有住址。但是即便如此,通过对消费空间、时间和消费能力的对比,他们还是能够将消费记录和某个用户ID对应起来。这种问题只要多搜搜,多看看自然就明白了。虽然我一看到这种媒体哗众取宠的标题就已经猜到是怎么回事儿了。简单说就是如果我有一个很大的消费记录,其中记录了用户ID、支付数额、支付时间和商家,然后我只需要知道你这个具体的人几笔准确的消费记录(包含数额、时间和商家),我就可以从这个大数据中间把你和某个用户ID对应出来,从而得到你全部的消费记录。看吧,没有任何神奇的算法,只是一个事实的阐述,而且这个事实我老早就知道了。
■网友
这实际上,又牵涉到另外一个话题。数据应用的导向一旦具体化,大数据中就会存在越多的数据垃圾——但凡具体的数据应用,数据越大、越多越好、越准确,我认为是种误导。


    推荐阅读