编写java多线程爬虫程序

发布时间:2019-11-17 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了编写java多线程爬虫程序脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

所谓爬虫程序,就是模拟浏览器发送http请求给web网站。
这里我们实现一个这样的爬虫程序:列出segmentfault网站中指定用户所有文章及其阅读人数的程序
基本思路是这样的:
1我们进入某用户的文章列表页
2获得文章列表
3对文章逐个访问
4获取文章页面的阅读数

比如以我的主页举例
1:进入文章列表页
我的的列表页是:这个
然后查看htML代码,找到文章对应的url所在标签

编写java多线程爬虫程序


格式是这样的href="/a/1190000017542212"
我们知道这里有用的信息是文章号,也就是1190000017542212这个,有了文章号,一会就可以利用这个
拼接成文章的url,也就是https://segmentfault.com/a/文...。具体来讲就是
https://segmentfault.com/a/11...
2:获得文章列表,就是获得所有文章号,利用正则表达式把获取的html文本中的文章号取出。
3:对文章逐个访问,就是逐个访问用文章号拼成的url。
4:同样利用正则表达式把获取到的html文本中的阅读数取出。
5:以上步骤都是由程序来完成!

最后是代码
这个代码只实现了访问文章,也就是到3,不过由于正则表达式的原理一样,有兴趣的读者可以自行修改
实现!!!

脚本宝典总结

以上是脚本宝典为你收集整理的编写java多线程爬虫程序全部内容,希望文章能够帮你解决编写java多线程爬虫程序所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。