海量数据作为一个专有名词成为热点,主要应归功于近来年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、rfid、无线传感器每分每秒都在产生数据、数以亿计用户的互联网服务时时刻刻在产生局立案的交互,要处理的数据量实在是太大、增长太快了,据idc2006年(internet data center)估计全世界的数据量已超过0.18zb(1zb=2^70b),而今年这个数字已经提升了一个数量级,达到1.8zb,差不多平均全世界每个人一块100多gb的硬盘的数据拥有量。这种增长还在加速,预计2015年将达到近8zb。面对如此庞大的数据量,可想而知各个大型企业特别是以数据搜集为主的公司的数据量就可想而知了:“百度,数百个pb(1zb=2^20pb);yahoo!100pb"。为了要满足业务需求和减缓竞争压力对数据处理的实时性、有效性又提出了更高的要求,传统的常规的技术手段根本无法应对当前的形式。 在这种情况下,技术人员纷纷研发和采用了一批新的技术、主要包括分布式缓存、基于mpp的分布式数据库、分布式文件系统、各种nosql分布式存储方案等。 20210311
single user mode:默认安装hive,hive是使用derby内存数据库保存hive的元数据,这样是不可以并发调用hive的, 这种模式时hive默认的存储模式,。使用derby存储方式时,运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库,配置文件中的“hive.metast...