_基于大数据的非物质文化资源挖掘研究.docx

上传人:夺命阿水 文档编号:889971 上传时间:2024-01-08 格式:DOCX 页数:36 大小:233.60KB
返回 下载 相关 举报
_基于大数据的非物质文化资源挖掘研究.docx_第1页
第1页 / 共36页
_基于大数据的非物质文化资源挖掘研究.docx_第2页
第2页 / 共36页
_基于大数据的非物质文化资源挖掘研究.docx_第3页
第3页 / 共36页
_基于大数据的非物质文化资源挖掘研究.docx_第4页
第4页 / 共36页
_基于大数据的非物质文化资源挖掘研究.docx_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《_基于大数据的非物质文化资源挖掘研究.docx》由会员分享,可在线阅读,更多相关《_基于大数据的非物质文化资源挖掘研究.docx(36页珍藏版)》请在课桌文档上搜索。

1、第1章绪论1.1研究背景与意义非物质文化资源是指各种以非物质形态存在的与群众生活密切相关、世代相承的传统文化表现形式1。他是中华民族传统文化不可或缺的一部分,也包含着中华民族最重要的精神和情感,更是先贤智慧的载体。而现如今在科学技术发展的潮流中,传统民族文化正受到当代文化的强势撞击。由于人们对非物质文化资源的保护不够重视,导致一些优秀的传统文化被遗失,这种情况不利于我国的发展与进步。现在,人们需要有更多的警示与思考,重视非物质文化资源的保护,留住民族记忆的背影。信息化时代的出现带来了全民信息化水平的提高,也直接或间接地导致非物质文化传承人日益减少。互联网的迅猛发展,使得新兴文化,外国文化成为主

2、流,使我们忽视非物质文化资源对祖国发展和自身发展的意义。数据挖掘技术的出现,为互联网时代的数据采集提供了新的思路和获取渠道。人们利用数据挖掘技术挖掘非物质文化资源,获取非物质文化资源信息,使非物质文化资源信息能够系统全面的展示在人们面前。并通过文本聚类,将相似的非物质文化资源聚类在一起,了解其聚类效果,让人们更好的了解,保护和传承非物质文化资源,也让人们更好的了解数据挖掘技术,并将其运用于实际生活中。12国内外研究现状随着数字化大时代的来临,非物质文化资源的口传身教已经逐渐不再符合时代发展的脚步,尤其是口头文学(京剧,秦腔,相声等等),手工工艺(竹编,苏绣等等),传统表演艺术(舞狮,川剧变脸等

3、等),而如今的我们都通过数字采集、数字存储、数字处理、数字展示和传播等技术,将非物质文化遗产转换成可共享的数字形态并加以保存。美国的非物质文化资源虽然有限,但对其的挖掘与保护手段却走在世界的最前沿,其中有名的“美国记忆”工程运用先进的大数据,将承载美国印象的非物质文化资源做成了可教育和终身学习的公众资源。日本是最早提出保护非物质文化资源的国家。早在1950年便提出了无形文化财产的概念并颁布了文化财保护法误!未找到引州溉,积极的将非物质文化资源数字化并形成了相关的非物质文化遗产数据库:贵重图书图像数据库(2000年3月上网)。而且该网页的电子展览会上,还公开了数字式贵重图书展览会和世界中的日本两

4、个项目。而中国作为走过五千年文化长河的历史古国,从古至今流传的文化精华数不胜数,大到气势恢宏的古典音乐,小到精美绝伦的瓷器,散发着古老气息的甲骨文,凝聚着民族情感的京剧,都是我国珍贵的非物质文化资源。他们源于生活,却形成一种高于生活的文化艺术。然而随着数字化时代的推进,这些承载着美好生活的文化却受到前所未有的打击,人们对非物质文化资源的不重视,大数据时代所带来的快节奏生活让他们渐渐的流失在时代的巨大齿轮中。而面对非物质文化遗产被步步蚕食的情况之下,我们也有了相应的措施。早在2005年,中国国务院便公布了关于加强中国非物质文化遗产保护工作的意见,并且提出“要运用文字、录音、录像、数字化多媒体等各

5、种方式,对非物质文化遗产进行真实、系统和全面的记录,建立档案和数据库。”确切的说就是通过计算机等设备把非物质文化进行文字、音频、视频的多媒处理,在储存、传播、应用等方面的突出优势来传承和发展非物质文化。例如为了使挖掘到得曲艺有得到足够的重视4。目前与曲艺相关的数据库有国曲艺家协会的“中国曲艺网”,星海音乐学院的“岭南音乐全文数据库”“岭南音乐音响数据库”等,在国家的政策之下,我国的学者们也纷纷对非物质文化资源的保护出谋划策,陈思喜在基于动作捕捉的名族舞蹈保护研究中强调让非物质文化遗产“活”起来,与三维动态技术和动作模型结合,通过数据采集将非物质文化遗产生动灵活地展现出来.一张博通过Web数据挖

6、掘技术对少数民族非物质文化资源进行研究,实现少数民族非物质文化资源原型系统,对非物质文化进行信息化保护,实现非物质文化资源的传承和利用!本找到引;雷明将大数据处理技术与数据挖掘技术相结合,对海量的少数民族文化资源数据挖掘方法进行了研究,为促进少数民族文化的保护和传承提供有效途径从这些实例可以看出,数字化手段对非物质文化遗产的保护正在被我们广泛应用。要知道,在如今的大数据时代的推动下,越来越多的非物质文化资源走向式微,而数字化手段的挖掘也是一个有良好发展前途的方式它存储灵活,传播迅速,应用广泛等优点,并且数字化手段有着十分可观的应用前景。(1)可以用数字化手段对非物质文化资源所进行的场所,工具,

7、产品甚至是非物质文化资源进行时的动态资料记录为图片,影像等并存储,保证他们不会遗失。(2)可以在小的存储器中存储大量由文献,图片,碑刻,影像的非物质文化资源实物资料转化而成的数字化信息,借助现代化科技可随时浏览。(3)可以在网络中建立虚拟的档案馆,图书馆,资料库等,并将非物质文化资源的各类资料进行整合,归纳分类,形成一个专门挖掘与保护非物质文化资源的平台。(4)数字化手段突破了以往非物质文化资源的传统表演方式与场合,物质条件的限制可以打破,可利用数字化技术通过高清扫描,虚拟3D等让非物质文化资源跨空间与地域的限制,真实,动态的展现在我们眼前。(5)数字化后的非物质文化资源,应用十分灵活,并且对

8、庞大的数据有自动分析,整理的能力,同时对我们有更方便的查询与检索。综上所述数字化手段对非物质文化资源的挖掘与保护有十分有效的作用。不仅仅是我国在使用,世界各国也将其投入了不同的,更加广泛的领域。在将来的时代中,数字化手段也应对非物质文化资源的挖掘与保护起到巨大的作用。1.3非物质文化资源的特征非物质文化资源并不是独立的存在,反而它的存在与我们的生活息息相关,比如说歌谣和舞蹈是为了欢庆某些特定的日子;瓷器工艺和竹编则是为了方便生活中东西的存放;各种传说是人们对某些生活或者精神的向往。可以说,非物质文化的诞生基本上是为了满足人们的一些生活需求,不仅是物质方面的需求,同时也包含精神的需求。非物质文化

9、资源所包含的东西可以说是方方面面,特定的空间,不同的地域,传承方式的差异创造了形形色色的文化。因此,非物质文化资源有以下几点特征:1.3.1时空性非物质文化资源刚开始的模样并不是我们今天见到的那样,他的开始也许是寥寥无几的几个字,几句话,几个动作。随着时间的齿轮推进,那些字,话,动作就像滚雪球一样愈来愈大,从而形成独特的文化。比如瓷器,从刚开始的胎体和釉层十分粗糙,烧纸温度较低的“原始瓷”,到如今的瓷片质地细腻,釉面有光泽,胎釉结合紧密牢固的瓷器,瓷器的变化十分明显。经历过无数的漫长岁月,先贤们用自己的经历书写智慧,为独特的文化不断积累经验,才有现在无数精彩的非物质文化的出现,因此,非物质文化

10、资源的形成和发展与时间有密切关系。而空间特征则是与空间地理相关的.一个地区的地理环境是该地区相应文化产生的前提条件2地理环境对文化的影响可谓十分巨大,不仅仅是文化本身,更是文化的流传都有着十分明显的地理特色。就拿草原的非物质文化遗产来说,草原多属平原,以游牧民族为主,有着大量的牛羊马等牲畜,在独特的地理环境中,草原之上便有了独特的文化,比较有名的有传统节日“那达慕”,是蒙古族人民的盛会,其中有摔跤,三码,射箭等等,还有草原民族独特的民族乐器马头琴,都是独特的地理环境所形成的文化。而在古代黑龙江流域的赫哲族聚居区,由于生长着大量的桦树,他们的文化便与桦树有着不解之缘,其中桦树皮制作技艺作为非物质

11、文化遗产,也在生活中有巨大作用,包括餐具,住房,篱笆,服饰等等都是由桦树皮制作的,这些也便恰好证明了为物质文化遗产的空间特征。1.3.2地域性非物质文化资源具有很强的地域性特点。有句老话说“百里而异习,千里而殊俗”,不同的地域之间文化差异巨大,哪怕是同一种文化,地域跨度一旦变大,便会形成两种截然不同的文化。简单来说,舞蹈作为非物质文化资源中不可或缺的一部分,在不同地域便有着迥异的风格。北方的秧歌舞古朴刚健,南方的花灯舞纤美柔曼,而少数民族在不同地域的舞蹈更加千姿百态,蒙古族安代舞粗犷有力,藏族锅庄舞舒展曼妙,苗族鼓舞平稳文雅,傣族孔雀舞婀娜多姿。不仅仅是舞蹈,在服饰,刺绣,民乐等多个方面都可以

12、体现出不同地域带来的非物质文化遗产的巨大差异。由此可见,非物质文化资源的地域性特点十分鲜明。1.3.3传承性所谓传承,是后人继承前人留下的非物质文化资源,并在其基础上,进行研究,发展,享用。当然,不同的非物质文化资源的传承方式各不相同,在以前的传承方式中,口传身教的传承方式较为常用,比如京剧,华阴老腔的传承,通过口传来传承。当然,非物质文化资源的传承也有以物传承或通过节日活动传承,如唐山花吹中的啖呐,唐山皮影,玉田泥人等都是以物传承误!术找到引用源。,而徐水狮舞的活动时间在春季和春季寺庙法会,苗族的“四月八”,布依族的“六月六”,彝族的“火把节”错说!未找到调源。,都是每年所拥有的传统节日。然

13、而,以前的传承方式有很大的不稳定性,如石阡木偶戏的老艺人只有三位耄耋老人,并没有传人,而被誉为象形文字“活化石”的水书也面临着失传的危险。因此数字化传承应运而生,我们将非物质文化资源的图片,物品,影像资料等储存在网络档案馆,使得非物质文化遗产更加立体化,全面化的被我们了解,学习。这也同时体现了非物质文化资源的传承性。第2章数据挖掘3.1数据挖掘含义数据挖掘(DM)是20世纪90年代新兴的学科,学名叫做数据库中发现知识(KDD),并在此后发展迅速,它以数据库系统以及数据库应用作为主要工作领域,其作用在于能够从应用数据中提取隐藏的关键信息与知识,无论是不完整的数据,还是受干扰的数据,数据挖掘技术都

14、能够对数据进行识别与筛选,并提取和处理其中的有用信息。数据挖掘的目的在于通过对数据中信息的处理,筛选关键数据,发现被忽略的数据,从而寻找数据中的规律,为决策者提供合理科学的数据分析报告,帮助其作出最优化的决策。其大概流程就是:从数据库中选取目标数据然后经过预处理、转换等步骤提取数据加以分析解释成为人们需要的实用知识。目前应用比较广泛的数据挖掘技术包含神经系统法、树形分析法、自然选择法、估算法、结合法等”:未技州习用选择数据数据挖掘过程(1)数据选择:确定发现任务的操作对象,即目标对象;它是从原始数据中抽取的用户需要的数据(2)预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转

15、换等;(3)转换:消减数据维数或降维,使得数据能够更好的应用(4)数据开采:明确定义数据开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等。在任务确定后,要决定使用什么样的开采算法;算法的确定可以根据数据的不同特点,也可以根据用户或实际运行系统的需求。(5)解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。3.3数据挖掘的主要功能数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:(1)数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述,让数据能够有针对性,可以直观

16、的表达。例如求和值、平均值、方差值;直方图、饼状图等图形方式表示这些值。(2)分类:目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量。(3)聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分,在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体。(4)关联分析:是寻找数据库中值的相关性。两种常用的技

17、术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式寻找的是事件之间时间上的相关性,(5)预测:把握分析对象发展的规律,对未来的趋势做出预见。(6)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。2.2文本挖掘2.2.1定义文本挖掘(TeXtMing,简称TM),是数据挖掘挖掘的一个分支。它的概念是Feldman在1995年正式提出的,可定义为:为了发现知识,从大规模文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程9。一般来说,文本挖掘和文本数据库中的知识发现(KnOWIedgeDiscoveryinTextualDatabaSe,简称KD

18、T)被认为是具有相同含义的两个词,最早由RonenFeldman等人提出25.2.2.2文本挖掘预处理文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘。文本挖掘的准备工作山文本收集、文本分析和特征修剪三个步骤组成。(1)文本收集需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。需要寻找和检索那些所有被认为可能与当前工作相关的文本。(2)文本分析与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构;此外文档的内容是人类所使用的白然语言,计算机很难处理其语义,数据挖掘技术无法直接应用文本,需要对文本进行分析,抽取代表其特征的

19、元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。(2)特征修剪特征修剪包括横向选择和纵向投影两种方式。横向选择是指剔除噪声文档以改进挖掘精度,或者在文档数量过多时仅选取一部分样本以提高挖掘效率。纵向投影是指按照挖掘日标选取有用的特征,通过特征修剪,就可以得到代表文档集合的有效的、精简的特征子集,在此基础上可以开展各种文档挖掘工作。2.2.3文本挖掘的关键技术经特征修剪之后,可以开展数据文本挖掘工作。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。(1)文档聚类首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个

20、文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档问的相似度;减轻浏览相关、相似信息的过程。聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。(2)文档分类分类和聚类的区别在丁:分类是基丁已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。(3)白动文摘白动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单地说白动文摘就是利用计

21、算机白动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。白动文摘具有以下特点:(1)白动文摘应能将原文的主题思想或中心内容白动提取出来。(2)文摘应具有概况性、客观性、可理解性和可读性。(3)可适用于任意领域。按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以白动生成句子来表达文档的内容。后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此日前大多用的是抽取生成法。2.4文本聚类文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小银!未找到引用

22、懈。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。文本聚类的一般流程如下:图2-1文本聚类流程图Stepl:分词分词这一步主要是对中文文档而言的,一般使用分词工具来完成。一般的中文分词工具主要有:jieba,Hanlp,SnowNLP(MlT),pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心),thulac(清华大学自然语言处理与社会人文计算实验室)等。step2:去除停用词停用词就是我们在实际生活中常用的不能用

23、于区分文档之间关系的一些词语。如“的”,“你”,“我”,“他”等。step3:构建词袋空间VSM(vectorspacemodel)构建词袋空间的步骤如下:(1)将所有文档读入到程序中,再将每个文档切词。(2)去除每个文档中的停用词。(3)统计所有文档的词集合(SkTearn相关函数)。(4)对每个文档,都将构建一个向量,向量的值是对应词语在本文档中出现的次数。Step4:TF-lDF构建词权重TF-IDF(termfrequency-inversedocumentfrequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料

24、库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。=公式(2-1)k%J以上式子中n;j是该词在文件d,中的出现次数,而分母则是在文件d;中所有字词出现次数之和。逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将

25、得到的商取对数得到:idf-Iog公式(2-2),Md其中A:|D|:语料库中的文件总数B:|d:dt;|:包含词语t;的文件数目(即n10的文件数目)然后:tfidf=tf;eidf公式(2-3)某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TFIDF.因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。Step5:使用聚类算法进行聚类到了这一步,就可以使用聚类算法进行文本聚类了,常用的聚类算法包括K-means,DBSCAN,BIRCH等。第3章基于K-means的非物质文化文本聚类研究3.1 K-means聚类算法3.1.1 算法概述Kmea

26、ns聚类算法是1955年由Steinhaus分别在他们各自研究的不同的科学领域独立提出的。空间聚类分析方法是空间数据挖掘中一个十分重要的方法!未技州用述,是从数据中发掘知识的一种手段。k-means算法是空间聚类算法中应用非常广泛的算法,同时它也在聚类分析中起着重要作用。日益丰富的空间和非空间数据收集存储于空间数据库中,随着空间数据的不断膨胀,海量的空间数据的大小、复杂性都在快速增长,远远超出了人们的解译能力,从这些空间数据中发现邻域知识迫切需求产生一个多学科、多邻域综合交叉的新兴研究邻域,空间数据挖掘技术应运而生。虽然k-means聚类算法被提出已经快60年了,但是目前仍然是应用最为广泛的划

27、分聚类算法之一膜!未找到用源。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。3.1. 2算法核心思想K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是从n个对象中随机选取K个对象作为初始的聚类中心,根据每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。3.1.3算法实现步骤(1

28、)、首先确定一个k值,即我们希望将数据集经过聚类得到k个集合。(2)、从数据集中随机选择k个数据点作为质心。(3)、对数据集中每一个点,计算其与每一个质心的距离(如欧式距离),然后把其划分到距离较近的质心所属的集合(4)、把所有数据归好集合后,一共有k个集合。然后重新计算每个集合的质心。(5)、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),我们可以认为聚类已经达到期望的结果,算法终止。(6)、如果新质心和原质心距离变化很大,需要迭代35步骤。伪代码如下:输入:样本集D=xl,x2xm;输出:聚类簇数k1:从D中随机选择

29、k个样本作为初始均值向量Ui.2.k2:repeat3:令C;=O(IWiWk)4:forj=l,2,.,mdo5: 计算样本Xi与各均值向量口;(lWik)的距离:dj=lxi-ll26: 根据距离最近的均值向量确定Xi的簇标记:;=argmin;G(1.2.k;d;i7:将样本砌入相应的簇:-M对;8:endfor9:fbrj=l,2.,mdo10:计算新均值向量:,I-ll:if1then12:将当前均值向量口;更新为U13:else14:保持当前均值向量不变15 endif16 :endfor17:until当前均值向量为更新输出:簇划分C=C1,C2.,CkJ3. L4优缺点:优点:

30、(1)解决聚类问题的经典算法,简单、快速(2)当处理大数据集时,该算法保持可伸缩性和高效率(3)当簇近似为高斯分布时,它的效果较好缺点:在簇的平均值可被定义的情况下才能使用,可能不适用于某些应用(2)必须实现给出k(要生成簇的数目),而且对初值敏感,即对于不同的初值,可能会导致不同结果(3)不适合非凸形状的簇或者大小差别很大的簇(4)对噪声和孤立点敏感3. 2Jieba分词算法Jieba分词算法,主要有以下三种:基于统计词典,构造前缀词典,基于前缀词典对句子进行切分,得到所有切分可能,根据切分位置,构造一个有向无环图(DAG);基于DAG图,采用动态规划计算最大概率路径(或有可能的分词结果),

31、根据最大概率路径分词;对于新词(词库中没有的词),采用有汉字成词能力的HMM模型进行切分。Jieba分词是目前最好用的中文分词组件,主要有3种分词模式:精确模式、全模式、搜索引擎模式1未找到调源,。同时,Jieba提供了两种关键词提取方法,分别基于TF-IDF算法和TextRank算法.我们重点介绍基于TF-IDF算法的关键词提取。TF-IDF(TermFrequency-InverseDocumentFreqUenCy,词频一逆文件频率)是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度,其原理可概括为:一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数

32、越少,越能够代表该文章.计算公式:TF-IDF=TF*IDF,其中:TF(termfrequency,TF):词频,某一个给定的词语在该文件中出现的次数,计算公式:TF在某一类中词羯出现的次数八之(31“一-该类中所为的词条数HA.IDF(inversedocumentfrequency,IDF):逆文件频率,如果包含词条的文件越少,则说明词条具有很好的类别区分能力,计算公式:IDF - Iog语料库的文档总数 、包含诃知的文档数+1公式(3-2:本文中,我们使用Jieba分词结合TF-IDF算法进行文本信息提取,并使用K-means算法进行文本聚类,挖掘文本的相似特征。第4章:实验验证4.1

33、语料预照本实验所用的语料数据来自于“中国非物质文化遗产网”获得的文本文档。实验文档页面如下所示:图4T实验文档对语料数据所做的处理如下:第一,采用正则表达式删除标点及无效语料例如“你”“我”和“他”等对聚类效果不产生任何影响的语料特征。第二,删除大篇幅的语料,由于语料篇幅太大,一方面硬件上CPU内存限制,另一方面,使用开发环境PyCharm2019设置合适的虚拟内存也无法满足大篇幅语料的聚类效果。4. 2实验结果我们将语料分解为音乐、舞蹈、民间文学、戏剧、曲艺、民俗、医药、技艺、美术、体育十个部分,对每个部分分别作文本数据挖掘,并对比算法性能。A舞蹈:将1440种舞蹈种类聚类在一起,对其进行文

34、本挖掘,计算其TF-IDF权重(wordfeatureIength)为13042,根据样本距其最近的聚类中心的平方距离之和,度量算法性能为1440.2581770287636;聚类图:B音乐:将1771种舞蹈种类聚类在一起,对其进行文本挖掘,计算其TF-IDF权重(wordfeatureIength)为13953,根据样本距其最近的聚类中心的平方距离之和,度量算法性能为1771.637532606441聚类图:图4-3音乐聚类图C民间文学:将782种民间文学种类聚类在一起,对其进行文本挖掘,计算其TFTDF权重(WOrdfeatureIength)为7757,根据样本距其最近的聚类中心的平方距

35、离之和,度量算法性能为782.9073155431148聚类图:图4-4民间文学聚类图D戏剧:将1853种戏剧种类聚类在一起,对其进行文本挖掘,计算其TFIDF权重(wordfeatureIength)为12587,根据样本距其最近的聚类中心的平方距离之和,度量算法性能为1853.3149909287383聚类图:图4-5戏剧聚类图E曲艺将790种曲艺种类聚类在一起,对其进行文本挖掘,计算其TF-IDF权重(WOrdfeaturelength)为7629,根据样本距其最近的聚类中心的平方距离之和,用来度量算法性能为789.8388828290302聚类图:图4-6曲艺聚类图F民俗将1899种民

36、俗种类聚类在一起,对其进行文本挖掘,计算其TRIDF权重(wordfeatureIength)为14494,根据样本距其最近的聚类中心的平方距离之和,用来度量算法性能为1899.2547467349318聚类图:图4-7民俗聚类图G医药将457种医药种类聚类在一起,对其进行文本挖掘,计算其TF-IDF权重(WOrdfeaturelength)为5342,根据样本距其最近的聚类中心的平方距离之和,用来度量算法性能为457.86448115297344聚类图:图4-8医药聚类图H技艺将1899种技艺种类聚类在一起,对其进行文本挖掘,计算其TF-IDF权重(wordfeatureIength)为16

37、927,根据样本距其最近的聚类中心的平方距离之和,用来度量算法性能为1972.048757958373聚类图:图4-9技艺聚类图I美术将1972种美术种类聚类在一起,对其进行文本挖掘,计算其TF-IDF权重(wordfeatureIength)为12849,根据样本距其最近的聚类中心的平方距离之和,用来度量算法性能为1242.086589346825聚类图:图4-10美术聚类图J体杂将1242种体育和杂技种类聚类在一起,对其进行文本挖掘,计算其TF-IDF权重(WOrdfeatureIength)为6437,根据样本距其最近的聚类中心的平方距离之和,用来度量算法性能为44L4901611491

38、9914聚类图:4. 3语料特征结果汇总表4T语料聚类精准度舞蹈音乐文学戏剧曲艺民俗医药技艺美术体杂1440177178218537901899457189919721242表4-2语料词袋空间最大特征值舞蹈音乐文学戏剧曲艺民俗医药技艺美术体杂1304213935775712587762914494534216927128496437图4-12语料聚类精准度对比注:A-J分别对应于舞蹈-体杂。(1)文本聚类效果中词袋向量最大特征值是算法中最为关键的一环,能够准确地得出各类语料的算法性能,进而判断语料聚类性能。(2)由图4-12不难看出,文本聚类效果准确度最高的是I美术,最低的则是G医药,说明在

39、所有样本聚类中,美术的文本聚类效果最好,医药的文本聚类效果最差。(3)通过对不同预料特征的本文数据挖掘,对比了不同预料特征下,K-means类算法的聚类准确度,聚类算法作为一种无监督学习算法,不需要人工预先知道特征,将具有相似特征的类别聚在一起,用于本文数据挖掘,发现钱潜藏在文本中的信息和价值。第5章总结与展望5.1结论随着时代的进步,经济的发展,大数据已经成为了世界的主流,虽然人类对发现的非物质文化资源进行了保护,但是很多非物质文化资源仍面临着灭绝的危险。而当前人类正处于的信息化时代,信息化技术也成为了保护和发展非物质文化资源的重要手段。非物质文化资源对我们有着不可磨灭的印记,他们是先贤们耗

40、费了无数的精力与光阴,将他们的思想,智慧全部封存在那一件件充满古老韵味的“物件”之中,我们也会用诸多手段将非物质文化资源进行整理,并且从其中挖掘更大的研究价值,对现在乃至未来都有着无法想象的作用。本文的具体工作如下:(1)主要介绍论文的研究背景,了解该研究问题的理论意义和现实意义;分析国内外研究现状,对相关概念概述,特性方面进行描述,(2)通过将K均值聚类算法用于本实验所划分的不同语料,发现聚类效果最好的是美术类预料,最差的是医药类语料,说明在所有语料聚类中,美术的文本聚类效果最好,医药的文本聚类效果最差。(3)数据挖掘提供了很好的资源整和方式,结合非物质形态文化的特点,对数据挖掘算法和用于中

41、文文本聚类的K-means算法进行了深入对比,使用K-means算法挖掘中文文本特征,从而更好地为下一步有关的研究开展提供了前提和基础。5. 2展望面对着现在的科技发展的时代,我们不难想象,在不可预知的未来,我们的科技水平将会达到一个质的飞跃,而文化,思想,精神也会需要很大的供给,而非物质文化资源也许会成为我们所需要的“营养”的载体,即便当今的有些非物质文化资源逐渐的走向没落,我们也会用科技手段将他们进行封存,而在未来,我们也会用诸多手段将他们完美地还原,并进行学习,研究。他们历经无数的岁月洗礼,仍展现出巨大的魅力,也许,非物质文化资源并非如我们今天所看到的那样,他们之中也许存在着更大的,未知

42、的魅力,需要我们去继续探索。电脑快捷知识大全编辑本段一、常见用法Fl显示当前程序或者windows的帮助内容。F2当你选中一个文件的话,这意味着“重命名”F3当你在桌面上的时候是打开“查找:所有文件”对话框Flo或ALT激活当前程序的菜单栏windows键或CTRLESC打开开始菜单CTRL+ALT+DELETE在win9x中打开关闭程序对话框DELETE删除被选择的选择项目,如果是文件,将被放入回收站SHIF+DELETE删除被选择的选择项目,如果是文件,将被直接删除而不是放入回收站CTRLN新建一个新的文件CTRL+0打开“打开文件”对话框CTRL+P打开“打印”对话框CTRL+S保存当前

43、操作的文件CTRL+X剪切被选择的项目到剪贴板CTRL+INSERT或CTRL+C复制被选择的项目到剪贴板SHlFT+INSERT或CTRL+V粘贴剪贴板中的内容到当前位置ALT+BACKSPACE或CTRL+Z撤销上一步的操作ALT+SHIFT+BACKSPACE重做上一步被撤销的操作Windows键+L锁屏键Windows键+M最小化所有被打开的窗口。Windows键+SHF+M重新将恢复上一项操作前窗口的大小和位置WindOWS键+E打开资源管理器WindOWS键+F打开“查找:所有文件”对话框Windows键+R打开“运行”对话框Windows键+BREAK打开“系统属性”对话框Win

44、dOWS键+CTRL+F打开“查找:计算机”对话框SHlFT+FlO或鼠标右击打开当前活动项目的快捷菜单SHIFT在放入CD的时候按下不放,可以跳过自动播放CD。在打开WOrd的时候按下不放,可以跳过自启动的宏ALTF4关闭当前应用程序ALT+SPACEBAR打开程序最左上角的菜单ALT+TAB切换当前程序ALT+ESC切换当前程序ALTENTER将windows下运行的MSDOS窗口在窗口和全屏幕状态间切换PRINTSCREEN将当前屏幕以图象方式拷贝到剪贴板ALT+PRINTSCREEN将当前活动程序窗口以图象方式拷贝到剪贴板CTRL+F4关闭当前应用程序中的当前文本(如word中)CTR

45、L+F6切换到当前应用程序中的下一个文本(力口Shift可以跳到前一个窗口)在IE中:ALT+RIGHTARROW显示前一页(前进键)ALT+LEFTARROW显示后一页(后退键)CTRL+TAB在页面上的各框架中切换(力口Shift反向)F5刷新CTRL+F5强行刷新目的快捷键激活程序中的菜单栏FlO执行菜单上相应的命令ALT+菜单上带下划线的字母关闭多文档界面程序中的当前窗口CTRL+F4关闭当前窗口或退出程序ALT+F4复制CTRL+剪切CTRL+X删除DELETE显示所选对话框项目的帮助Fl显示当前窗口的系统菜单ALT+空格键显示所选项目的快捷菜单SHIFT+F10显示“开始”菜单CT

46、RLESC显示多文档界面程序的系统菜单ALT+连字号(一)粘贴CTRL+V切换到上次使用的窗口或者按住ALT然后重复按TAB,切换到另一个窗口ALT+TAB撤消CTRL+Z编辑本段二、使用“Windows资源管理器”的快捷键目的快捷键如果当前选择展开了,要折叠或者选择父文件夹左箭头折叠所选的文件夹NUMLOCK+负号(一)如果当前选择折叠了,要展开或者选择第一个子文件夹右箭头展开当前选择下的所有文件夹NUMLOCK+*展开所选的文件夹NUMLOCK+加号(+)在左右窗格间切换F6编辑本段三、使用WINDOWS键可以使用Microsoft自然键盘或含有Windows徽标键的其他任何兼容键盘的以下

47、快捷键。目的快捷键在任务栏上的按钮间循环WINDOWS+TAB显示“查找:所有文件”WIND0WS+F显示“查找:计算机”CTRL+WINDOWS+F显示“帮助WINDOWS+F1显示“运行”命令WIND0WS+R显示“开始”菜单WlNDOWS显示“系统属性”对话框WINWS+BREAK显示“Windows资源管理器”WINWS+E最小化或还原所有窗口WIND0WS+D撤消最小化所有窗口SHIFT+WINDOWS+M编辑本段四、“我的电脑”和“资源管理器”的快捷键目的快捷键关闭所选文件夹及其所有父文件夹按住SHIFT键再单击“关闭按钮(仅适用于“我的电脑”)向后移动到上一个视图ALT+左箭头向前移动到上一个视图ALT+右箭头查看上一级文件夹BAC

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号