关于这个,已经了比较标准的答案,就不在赘述了。所谓大数据,是指多个来源和多种格式的大量结构化和非结构化数据。有两个关键点:一是大。即数据量要非常多,数量少了不叫大数据。在实践中,一般至少要有10tb(1tb等于1024gb,想想你32g的苹果手机,可以装多少数据?)的数据量才能称之为大数据,而在类似苏宁金融等互金巨头,基本都沉淀了pb级(1pb约等于105万gb,相当于3.3万个32g的u盘,截止目前,人类生产的所有印刷材料的数据量也不过200pb)的数据量。大数据科学家johnrauser就提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。啪菠萝·毕加索的定义是,大数据就是多,就是多,原来的设备存不下、算不动。这里强调的便是大。二是数据来自多种数据源,数据种类和格式丰富,不仅包括结构化数据,还包括半结构化和非结构化数据。意味着,即便数据量很大,但如果局限于单个领域,也不能称之为大数据。因为大数据的一个重要作用就是利用不同来源、不用领域的数据进行非线性地分析,用于未来的预测。比如,《大数据时代》在作者schönberger的对大数据的定义就是,“大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。这里强调的便是数据的多样性。有了大数据,自然就要有大数据技术,即从各种各样类型的巨量数据中,快速获取有价值信息的技术,强调快,这是大数据技术与传统数据挖掘技术的重要区别。从巨量数据中提取的有价值信息,即是大数据在各个领域的具体运用,比如基于大数据进行客群的细分,进而提供定制化服务;基于大数据模拟现实环境,进而进行精准评估和预测;基于大数据进行产品和模式创新,降低业务成本、提升经营效率等等。不过,关于大数据的应用,有一个广为流传的段子,即:“big data ** like **age sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else ** doing it, so everyone claims they are doing it too .”正如这个段子所讲,很多领域的大数据应用,还只是停留在想象的层面。金融大数据数据领域应用逻辑说道大数据在金融领域的应用,一般认为有精准营销和大数据风控两个方面。精准营销就不说了,基于行为数据去预测用户的偏好和兴趣,继而推荐合适的金融产品,相比传统的**发模式,不知要先进了多少倍,这个大家都容易理解。而对于大数据风控,其逻辑便在于“未来是过去的重复”,即用已经发生的行为模式和逻辑来预测未来。统计学规律告诉我们,在实验条件不变的条件下,重复实验多次,随机事件的频率等于其概率。意味着,随着随机事件的大量发生,我们是可以发现其内在规律的。而大数据里面包含的海量数据,就为我们发觉隐藏在随机事件后面的规律提供了条件。大数据风控的两个应用,信用风险和欺诈风险,背后都是这个逻辑,通过分析历史事件,找到其内在规律,建成模型,然后用新的数据去验证和进化这个模型。以美国主流的个人信用评分工具fico信用分为例,fico分的基本思路便是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势和经常违约、随意透支、甚至申请破产的各种陷入财务困境的借款人的发展趋势是否相似。fico评分是传统金融机构对大数据的运用,再来看看典型互金机构zestfinance对大数据的运用,zestfinance的客群主要就是fico评分难以覆盖的人群,要么是在fico得分过低金融机构拒绝放贷的人,要么是fico得分适中,金融机构同意放贷但利率较高的人。 20210311