《大数据与我们的生活.pptx》由会员分享,可在线阅读,更多相关《大数据与我们的生活.pptx(14页珍藏版)》请在课桌文档上搜索。
1、大数据与我们的生活,云计算Cloud Computing,分布式处理Distributed Computing并行处理Parallel Computing网格计算Grid Computing,云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。,什么是大数据?,何为大?数据度量1Byte=8 Bit1KB=1,024 Bytes1MB=1,024 KB=1,048,576 Bytes1GB=1,024 MB=1,048,576 KB=1,073,741,
2、824 Bytes1TB=1,024 GB=1,048,576 MB=1,099,511,627,776 Bytes1PB=1,024 TB=1,048,576 GB=1,125,899,906,842,624 Bytes1EB=1,024 PB=1,152,921,504,606,846,976 Bytes1ZB=1,024 EB=1,180,591,620,717,411,303,424 Bytes1YB=1,024 ZB=1,208,925,819,614,629,174,706,176 Bytes,什么是大数据?,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力
3、的海量、高增长率和多样化的信息资产。研究机构Gartner大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据时代,什么是大数据?,IBM提出大数据的5V特点:Volume(大量)可从数百TB到数十数百PB、甚至EB的规模Velocity(高速)很多大数据需要在一定的时间限度下得到及时处理Variety(多样)即大数据包括各种格式和形态的数据。Veracity(真实)处理的结果要保证一定的准确性。Value(价值)大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。,大数据时代的三个重大转变,要全体不要抽样要效率不要绝对精确要相关不要因果,要全体不要
4、抽样采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大。搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细节和微乎其微的重要问题。大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法。数据量不一定很大,但需要全部,包含了所有的信息。,要效率不要绝对精确只有5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,剩下95%的非结构化数据都无法被利用。少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少量数据下表现差的算法,可能在大数据下惊呆小伙伴们。大数据的简单算法比小数据的复杂算法更有效,混杂是关键。谷歌翻译之所以好,除了数据量庞
5、大以外,还接受了有错误的数据,即来自互联网的废弃内容。,要相关不要因果通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨吉拉德的书,但是他只要通过算法统计分析,得知这个结果就可以了。沃尔玛领导了零售链的革命,让供应商监控销售速率、数量、以及存货情况。这个数据库不仅包含了每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当天的天气。在大数据时代,通过建立在人的偏见上的关联物检测法已经不再可行,因为数据库太大而且需要考虑的领域太复杂。,我们身边的大数据,搜狗拼音输入法,我们身边的大数据,各类猜你喜欢,我们身边的大数据,Siri语音识别,大数据存在的问题,大数据能告诉我们是什么,但不能告诉我们为什么大数据只能是辅助工具,通过大数据下结论是有风险的大数据可能导致大错误炒作,