摘 要
随着互联网的不断发展和日益普及,网上的信息量在爆炸性增长,在 2004 年4月,全球Web页面的数目已经超过40 亿,中国的网页数估计也超过了3 亿。 目前人们从网上获得信息的主要工具是浏览器,搜索引擎在网络中占有举足轻重的地位,本文将在此深入的对搜索引擎做一个研究与阐述。并且详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本文实现了一个简单的搜索引擎Damon。
关键词: 1、jsp 2、 搜索引擎 3、设计 4、实现
目 录
一、前言…………………………………………………………………………………………………………………… 1
二、搜索引擎的相关理论分析…………………………………………………………………………………… 2
(一)搜索引擎的历史渊源………………………………………………………………………………. 2
(二)搜索引擎基本结构………………………………………………………………………………….. 3
1、网络机器人…………………………………………………………………………………….. 3
2、索引与搜索…………………………………………………………………………………….. 4
3、Web服务器…………………………………………………………………………………….. 4
4、搜索引擎的主要指标及分析……………………………………………………………. 4
三、网络机器人………………………………………………………………………………………………………… 5
(一)什么是网络机器人………………………………………………………………………………….. 5
(二)网络机器人的结构分析…………………………………………………………………………… 5
(三)Spider程序结构………………………………………………………………………………………. 6
(四)如何提高程序性能………………………………………………………………………………….. 7
四、基于Tomcat的Web服务器jsp搜索引擎程序设计详解……………………………………….. 8
(一)开发工具、平台及资源…………………………………………………………………………… 8
(二)Lucene开源组件简介………………………………………………………………………………. 8
(二)Lucene的基本介绍………………………………………………………………………………….. 8
1、对于Lucene的感性认识………………………………………………………………….. 8
2、Lucene的索引效率………………………………………………………………………….. 9
(三)引入基于Tomcat的Web服务器开发设计………………………………………………. 10
(四)用户接口设计……………………………………………………………………………………….. 10
1、客户端设计…………………………………………………………………………………… 10
2、服务端设计……………………………………………………………………………………. 11
(五)机器人的设计分析………………………………………………………………………………… 12
1、程序结构图如下:………………………………………………………………………… 12
2、程序关键代码实现如下:……………………………………………………………… 13
(六)关于程序说明……………………………………………………………………………………….. 16
五、在Tomcat上部署项目……………………………………………………………………………………….. 18
六、结论…………………………………………………………………………………………………………………. 19
致谢………………………………………………………………………………………………………………………… 20
参考文献…………………………………………………………………………………………………………………. 21