《大数据与审计.pptx》由会员分享,可在线阅读,更多相关《大数据与审计.pptx(27页珍藏版)》请在课桌文档上搜索。
1、大数据与审计概述,目录,1.信息技术的相关背景知识2.大数据的由来及技术体系3.大数据在审计中的应用4.关于大数据审计的几点建议,信息化技术发展的三次变革,数据的度,计算机中数据大小的表示1Byte=8 Bit(=bps)1KB=1,024 Bytes1MB=1,024 KB=1,048,576 Bytes1GB=1,024 MB=1,048,576 KB=1,073,741,824 Bytes1TB=1,024 GB=1,048,576 MB=1,099,511,627,776 Bytes1PB=1,024 TB=1,048,576 GB=1,125,899,906,842,624 Byte
2、s1EB=1,024 PB=1,048,576 TB=1,152,921,504,606,846,976 Bytes1ZB=1,024 EB=1,180,591,620,717,411,303,424 Bytes1YB=1,024 ZB=1,208,925,819,614,629,174,706,176 Bytes,数据的量,在2006年个人PC迈入TB,全球产生数据总量为180EB(0.18ZB)在2010年时,全球数据总量增加到了1.8ZB据预计到2020年,全球将总共拥有44ZB的数据量我国将达到8ZB,占全球总量的18%,大数据起源(Big Data),2008年9月科学(Scienc
3、e)杂志发表了一篇文章“BigData:Science in the Petabyte Era”,从此“大数据”这个词开始广泛传播所谓大数据,泛指规模达到级,包含结构化、非结构化以及半结构化数据集合,如文本、图像、声音、视频等。,大数据4V特征,结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理 能力提出了更高要求,数据更新速度快据统计,淘宝每日的数据量约在10万G左右,百度搜索每日的搜索量达70亿次,新浪微博每日更新数达5千万次,人人网的每日访问量达4亿次。,数据量巨大全球在2010 年正式进入ZB 时代,预计
4、到 2020 年,全球将总共拥有44ZB 的数据量,沙里淘金,价值密度低虽然数据量很大,但是价值密度较低。通过强大的机器算法更迅速地完成数据价值“提纯”,是目前 大数据亟待解决的难题,1.海量(Volume),3.速度(Velocity),4.价值(value),2.多样(Variety),8,大数据的定义,定义 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。维基百科 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。百度百科,googl
5、e的三大论文(三驾马车),Google公开的三篇论文(2003,2004,2006)The Google File System分布式文件存储系统MapReduce:Simplified Data Processing on Large Clusters分布式并行计算Bigtable:A Distributed Storage System for Structured Data分布式数据库,Hadoop的诞生,Hadoop之父Doug CuttingDoug Cutting 根据Google公开的三篇论文思想,以JAVA语言,实现了论文中关于分布式存储、分布式并行计算的机制,由此开启了大数据
6、应用的新时代,大数据核心技术,分布式存储,分布式处理,MapReduce,大数据,HDFS,HADOOP的体系结构,Ambari(安装、部署配置和管理工具),HDFS分布式文件管理系统,MapperReduce2/Yarn,Hive数据仓库,Pig数据流处理,Mahout数据挖掘,Zookeeper(分布式协调服务),Sqoop(数据库TEL工具),Flume(日志收集),HBase(分布式数据库),大数据平台下数据挖掘算法,分类(Classification)支持向量机(SVM)神经网络(Neural Network)与深度计算朴素贝叶斯(Nave Bayes)决策树(Decision Tr
7、ees)聚类(Clustering)关联规则挖掘,参数估计(Parameters Estimation)高维度数据降维(Dimension Reduction)集成学习(Ensemble Learning)大图数据算法 图聚类 图分类/图划分图模式匹配(子图同构、最大公共子图),13,大数据与传统数据,GB/TB级高质量干净强结构化关系简单,传统数据vs大数据,传统数据,PB级以上有冗余非结构化有缺失关系复杂,大数据,分布式存储,分布式并行计算,特征,当前大数据审计的开展形式,15,两项工作:1、建立标准表2、建立数据分析指引,大数据审计的标准表,16,1、标准表含义:就是按一定规则对被审计单
8、位数据整理后的具有一定规则的数据表2、如何建立标准表:1)部分市局已经统一建立(如财政)2)个别可以交给专业人员建立,或者直接使用,大数据审计的数据分析指引,17,1、数据分析指引的含义:就是审计项目中所有问题形成的清单2、如何建立数据分析指引:将审计事项清单能用SQL语句实现的,写上SQL语句,不能查询的写上怎么查资料,当前大数据审计中的本质,18,定义:实质是建立在常规数据基础上信息技术的全面应用技术:主要运用的技术是以SQL查询、比对与关联分析等方法特点:数据类型多,关联性强,各类数据的相互验证应用更加突出,如何开展大数据审计,19,1、转变思路:必须彻底改变传统的思维模式,真正树立数据
9、先行的理念,从原来的经验到账本,变为经验到语句。2、树立信心:大数据审计针对的是常规数据,采用的常规方法。3、学点知识:目前只需要掌握SQL查询语言就可以,开展大数据审计的SQL语言,20,1、需要掌握的内容:1)查询一张表 select*from 财务数据2)查询两张表 select*from 财务数据 join 业务数据2、需要掌握的命令:绝大部分:Select from where join on(5)一少部分:group by having(3)系统函数:sum count(2)3、需要牢记的格言:学习三天和学习三年,差距只有一步之遥,大数据审计工作思路,21,1、重点完成统一开展的数
10、据分析项目2、围绕项目,集思广益,发掘思路,建设体系3、提升财务审计智慧化程度4、积极开展大数据核心技术领域的研究,大数据审计工作思路,22,重点完成统一开展的数据分析项目1、学习、领会统一编发的数据分析指引2、调通数据分析指引的语句3、结合实际经验,完善数据分析思路,丰富指引内容,大数据审计工作思路,23,围绕项目,发掘思路,集思广益,建设体系1、常规项目中树立建立数据指引意识2、积极汇聚数据分析思路,建立行业数据分析指引,大数据审计工作思路,24,提升财务审计智慧化程度1、积极固化财务审计方法和思路2、大胆的开拓审计思路3、发掘数据分析思路4、整合数据分析成果,提升审计工具智慧化,大数据审计工作思路,25,积极开展大数据核心技术领域的研究1、针对大数据核心技术领域开展研究2、积极探索新技术与审计的结合点,大数据审计工作的建议,26,1、切实转变传统的审计观念,树立大数据思维2、积极开展数据分析,大胆假设3、创建鼓励和支持大数据审计的氛围,加大支持和保障力度,27,谢谢!,