2438.搜索引擎中搜索器的研究与实现 【计算机信息 毕业论文】 .doc

上传人:夺命阿水 文档编号:1266274 上传时间:2024-04-23 格式:DOC 页数:12 大小:66.66KB
返回 下载 相关 举报
2438.搜索引擎中搜索器的研究与实现 【计算机信息 毕业论文】 .doc_第1页
第1页 / 共12页
2438.搜索引擎中搜索器的研究与实现 【计算机信息 毕业论文】 .doc_第2页
第2页 / 共12页
2438.搜索引擎中搜索器的研究与实现 【计算机信息 毕业论文】 .doc_第3页
第3页 / 共12页
2438.搜索引擎中搜索器的研究与实现 【计算机信息 毕业论文】 .doc_第4页
第4页 / 共12页
2438.搜索引擎中搜索器的研究与实现 【计算机信息 毕业论文】 .doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《2438.搜索引擎中搜索器的研究与实现 【计算机信息 毕业论文】 .doc》由会员分享,可在线阅读,更多相关《2438.搜索引擎中搜索器的研究与实现 【计算机信息 毕业论文】 .doc(12页珍藏版)》请在课桌文档上搜索。

1、职业学院毕业论文(设计)题 目 搜索引擎中搜索器的研究与实现 毕业论文(设计)搜索引擎中搜索器的研究与实现 摘 要搜索引擎是从WWW上快速而有效地获取信息资源的捷径,而网络蜘蛛技术则是搜索引擎的关键。首先介绍了搜索引擎的工作原理及其系统结构,然后分析了搜索引擎中搜索器的地位和重要性,最后提出了实现一个中小型网站智能搜索引擎的设计思路。本文对于智能搜索器的设计与实现,主要是在现有网络蜘蛛的基础上,提出了以网页评价值或权威度为依据确定搜索策略的思路,并提出了更快捷、更全面的提取URL的策略。本文对如何提取文档摘要做了研究,提出以语句位置、关键词、与标题相关度、累计相似度四个参数为依据,按所得到的语

2、句权值对文中所有语句进行排序,确定语句在整个文档中的重要性,由此按照一定的压缩率得到整个文档的摘要。本文的研究既具有一定的理论意义和技术价值,又具有一定的市场价值,它将有助于搜索引擎智能化的提高,对生活信息、娱乐信息、科研信息、商业信息的检索和获取,扩大商业机会,具有较大的社会和经济效益。关键词:搜索器,URL,智能,搜索策略,文档摘要ii目 录搜索引擎中搜索器的研究与实现I目 录II第1章 前言11.1 课题的意义11.2 国内外研究现状11.3 课题的研究目标1第2章 搜索引擎的工作原理和系统结构22.1 搜索引擎的工作原理22.2 搜索引擎的系统结构32.3 本章小结3第3章 搜索引擎中

3、搜索器的设计思想43.1搜索器基本概念的理解43.2智能搜索器系统结构的设计43.3 搜索策略的设计思想43.4 文档摘要提取方法设计思想43.5 本章小结4第4章 智能搜索器的设计实现54.1 搜索器的搜索程序的设计54.2 文档摘要提取的具体设计54.3 本章小结5第5章 试验结果65.1 搜索算法的试验结果与性能分析65.3 本章小结6第6章 总结76.1 主要工作和创新点76.2 存在的问题及未来的方向7参考文献8致谢9毕业论文(设计)第1章 前言1.1 课题的意义因特网上的信息呈几何级数增长,面向因特网的信息获取与处理技术是当前计算机科学与技术领域急需研究的课题。1.2 国内外研究现

4、状国内关于搜索引擎和搜索器的研究始于对国外相关成果的介绍,到现在渐渐成为热点,从论文数量的分支专题分布看,综合性研究论文的数量远远超过细分化专门领域的论文及成果数量。国外未来搜索引擎的发展应朝着智能型综合化的方向发展1 2。1.3 课题的研究目标通过对搜索引擎工作原理及系统结构的研究,以Java为开发工具,编写智能搜索器来提高搜索引擎的搜索能力。尤其是在提高全、准、快、省方面有明显的效果。拟解决的关键问题:(1) 采用多线程编程技术设计中小型网站的爬行算法。(2) 根据语句位置、关键词权重、相似度等对文档内容进行摘要的提取。第2章 搜索引擎的工作原理和系统结构2.1 搜索引擎的工作原理2.1.

5、1 搜索引擎的工作原理搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。(1) 搜索器其功能是在互联网中漫游、发现和搜集信息。并行计算技术,以提高信息发现和更新的速度。(2) 索引器(3) 检索器(4) 用户接口2.1.2 搜索引擎的比较对几个著名搜索引擎从检索功能、结果显示格式、结果排序规则、标引内容、信息采集等方面作个总结。(1) 检索功能几种主要的搜索引擎均支持单词、关键词的简单和高级查询功能。支持布尔运算,一般缺省为or运算。(2) 结果排序规列关键词、检索词在所有这些搜索引擎中均是结果排序的重要依据。(3) 标引内容总之,由高到低的顺序是:InfoSeek、OpenText

6、、A1taVistao在用户界面上AitaVista和HotBot做得比较好。2.1.3 搜索引擎存在的缺陷无论是设计还是改进搜索引擎,都只有一个出发点:努力使搜索引擎发挥最大的作用。2.1.4 搜索引擎的特征智能搜索引擎设计追求的目标是根据用户的请求,从可以获得的网络资源中检索出对用户最有价值的信息。一般而言,智能搜索引擎有三个主要的特征:(1) 网络蜘蛛的智能化(2) 自适应用户的能力(3) 搜索引擎人机接口的智能化2.1.5 搜索引擎的发展方向及研究热点2.2 搜索引擎的系统结构2.2.1 搜索引擎中的搜索器(1) 基本机制(2) 网络蜘蛛2.2.2 搜索引擎对网页的标引处理(1) 网络

7、蜘蛛对网页的基本标引方法2.2.3 搜索引擎的数据组织和用户检索机制2.3 本章小结搜索器在搜索引擎中占有重要位置,搜索器的功能是在互联网中漫游、发现和搜集信息,网络蜘蛛是采用自动采集方式的搜索引擎的核心。它采用分布式、并行计算技术尽可能多、尽可能快地搜集新信息和定期更新旧信息,以避免死连接和无效连接,为此搜索器的实现常以信息发现和更新速度的提高。第3章 搜索引擎中搜索器的设计思想3.1搜索器基本概念的理解一个搜索器基本上采用深度优先或广度优先两种方式的搜索策略来完成网页的采集,但是这两种方式各有所长、各有所短,本文针对某一范围内的搜索提出了先采用深度优先再广度优先的搜索策略,并应用到所设计的

8、搜索器中。3.2智能搜索器系统结构的设计在匹配的过程中,尤其在增强的文档评价中,匹配策略和素材是两个重要的参与对象。3.3 搜索策略的设计思想从以上各部分的作用可以看出,要提高搜索器的搜索效果只要增加其中某一部分的效率就可以增加搜索引擎的搜索效果,本文主要通过通过搜索深度的控制来实现较好的搜索效果。3.3.1 系统工作流程分析3.3.2 搜索策略的设计思想3.4 文档摘要提取方法设计思想3.4.1 文档摘要实现思想3.4.2 文档摘要实现流程3.5 本章小结通过分析各种不同的搜索策略生成。第4章 智能搜索器的设计实现4.1 搜索器的搜索程序的设计4.1.1 网络机器人的工作过程如何解决顺序问题

9、和优先问题是本文研究的主要内容之一。4.1.2 URL的解析方法具体的算法是:4.1.3 搜索算法的实现4.1.4 搜索算法的说明并在完成后放入完成队列中。4.1.5 搜索算法的主要程序代码分析4.2 文档摘要提取的具体设计 (4-4)于是累计相似度可以用下式计算: (4-5)4.3 本章小结搜寻程序要对网站内部的URL进行系统而全面的遍历,由于处理的数据量很大选择下一个URL进行搜索。第5章 试验结果5.1 搜索算法的试验结果与性能分析5.3 本章小结第6章 总结6.1 主要工作和创新点本文讨论的主要问题有以下几个方面:(1) 搜索策略的研究(2) 在进行文档摘要时确定关键词合理的权值(3)

10、计算文中语句的总体权值并提取出文档摘要6.2 存在的问题及未来的方向由于网络上网页的数量成几何级数在增加,如何提高搜索器的搜索效率成为搜索器亟待解决的一个问题,本文研究的搜索器在确定搜索退出的阀值大小及网页权威度都可以再进行细致的研究。参考文献1 2 陈先.智能搜索引擎关键技术与研究.工学硕士学位论文.哈尔滨.哈尔滨工业大学.20033 胡蓉,周经野.搜索引擎的发展和个性化研究.宁波职业学院院报.2005(4)4 张汛涞.搜索引擎的设计剖析.计算机工程与科学.2002(4)5 左羽.搜索引擎的原理及技术分析研究.福建电脑.2005(8)6 赫枫龄,陶文学,李凯.新一代网络搜索引擎系统CHINAVIVI的实现.吉林大学学报.2003(4)注:参考文献要十篇以上。致谢11

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号