首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图

云计算实战 ——爬虫一部分

2014-01-08 来源:读书人网 【读书人网(Reader8.cn):综合教育门户网站】
云计算实战 ——爬虫部分第一部分: 需求分析 爬虫在项目中间的作用? 分析用户的行为需要根据用户浏览网页的

云计算实战 ——爬虫部分
第一部分: 需求分析
 
爬虫在项目中间的作用
? 分析用户的行为需要根据用户浏览网页的分类及特征来决定,所以获取网页内容需要爬虫
? 单线程爬虫难以满足项目的需求,需要多线程爬虫来处理
第二部分: 技术点
Wget与HttpClient
? Wget 是一个从网络上自动下载文件的自由工具 , 支持通过 HTTP 、 HTTPS 、 FTP 三个最常见的 TCP/IP 协议下载,并可以使用 HTTP 代理
? HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议
 
功能需求
? 分析网页内容取得词频
?
? 获取词与网页的对应关系
Page
云计算实战 ——爬虫一部分
第三部分: 代码实现
请参考视频和源码
 
私塾在线原创