1 绪论… 4

1.1选题背景… 4

1.2论文研究的主要内容… 5

1.3 论文组织结构… 5

2 相关技术简介… 6

2.1 PYTHON. 6

2.2 开发工具… 7

2.3 URL类访问网络… 7

2.4 爬行策略浅析… 7

2.4.1宽度或深度优先搜索策略… 7

2.4.2 聚焦搜索策略… 8

2.4.3基于内容评价的搜索策略… 8

2.4.4 基于链接结构评价的搜索策略… 8

2.4.5 基于巩固学习的聚焦搜索… 9

2.4.6 基于语境图的聚焦搜索… 10

3 系统需求分析与总体设计… 11

3.1 需求分析… 11

3.2系统开发环境及条件… 11

3.2.1 硬件条件… 11

3.2.2 软件平台… 11

3.3系统逻辑层次设计… 12

3.4 新闻推荐采集流程设计… 12

3.5搜索引擎爬虫体系结构… 13

3.6搜索引擎抓取工作过程… 14

4 系统详细设计与实现… 16

4.1 网络爬虫构造结构… 16

4.2 爬行策略… 17

4.3 URL抽取,解析和保存… 19

4.3.1 URL抽取… 19

4.3.2 URL解析… 20

4.3.3 URL保存… 20

4.4 实现工具… 21

4.5 URL解析… 21

4.6 URL队列管理… 21

4.6.1 URL消重处理… 21

4.6.2 URL等待队列维护… 22

4.8 后台中心… 22

4.9数据展示… 22

5 结论… 23

参考文献… 25

谢 辞… 27

 

 

摘要

随着互联网技术的飞速发展,从网络获取信息已经成为用户接受信息的一个重要渠道之一。而用户获取信息是通过各类文本获取,各种类型的文本便构成了庞大的具有异构性、开放性特点的分布式数据库。网络信息的出现以及与计算机技术的结合大大加速了两者的发展,已经成为目前非常重要的手段。

本文简单介绍了PYTHON编程语言的功能特点以及爬虫,设计了一套基于网络爬虫的新闻推荐信息系统。在设计上采用了一些较新、较完善的设计,系统主要功能包含了新闻推荐网站信息爬取、信息存储和修改,分析了基于网络爬虫的新闻个性化推荐系统的一些基本功能和组成情况,包括系统的需求分析、系统结构,功能模块划分以及模式分析等,重点对应用程序的实际开发实现作了介绍,保证了数据信息的一致性和安全性,确保应用程序功能齐全完备,符合系统的要求。

 

关键词:网络爬虫;推荐;Python

 

 

 

 

 

 

ABSTRACT

With the rapid development of Internet technology, obtaining information from the network has become an important channel for users to receive information. Users obtain information through various types of text, and various types of text constitute a huge distributed database with heterogeneous and open characteristics. The emergence of network information and the combination with computer technology have greatly accelerated the development of both, and have become a very important means at present.

This paper briefly introduces the function and characteristics of PYTHON programming language and crawler, and designs a news recommendation information system based on Web crawler. Some newer and more perfect designs are adopted in the design. The main functions of the system include information crawling, information storage and modification of news recommendation websites. Some basic functions and components of the news recommendation information search and management system based on web crawler are analyzed, including system requirements analysis, system structure, functional module division and mode analysis. Emphasis is placed on the application program. The actual development and implementation are introduced, which ensures the consistency and security of data and information, and ensures that the application program has complete functions and meets the requirements of the system.

 

Keywordsweb crawler; recommendation; Python

 

 

1 绪论

1.1选题背景

随着互联网技术的飞速发展,从网络获取信息已经成为用户接受信息的一个重要渠道之一。而用户获取信息是通过各类文本获取,各种类型的文本便构成了庞大的具有异构性、开放性特点的分布式数据库。在这些数据库中文本数据库占有比例更大,从而派生出文本挖掘[1]。他是一个从文本信息描述到选取提取模式,

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源