脚本宝典收集整理的这篇文章主要介绍了【JAVA】使用JSOUP让JAVA取得网页上的文字,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
因为之前参加比赛摆摊的经验,有很多人都会问关于我们专题是怎么让JAVA / AndROId的读到网页上的文字,所以我这个无业游民就来回馈大家了!!
废话不多说,马上来说明到底要怎么使用JSOUP─HTML/ xml解析取得网页上的文字!!
关于JSOUP
它是一个别人写好的JAVA套件,可以解析HTML及XML,至于是为什么能做到,
因为HTML和XML有所谓的标签
如上图,就是这个左右大小于括起来的东西,
它能取得指定的标签,一直到下一个结束为止,所以凡是有标签的网页,JSOUP都能取得标签包夹的资料。
于是乎,我们可以归纳出JSOUP能作的事情有:
取得HTML网页的文字(标签若重覆,则取得方法在后面有范例)
取得XML网页的文字(因为标签不会有重覆的情况,解析标签会达到最佳效果)
资料库的资料(将取得资料库的PHP的网页按右键检视原始码后,会显示成HTML语言,接下来的方法同HTML)
若要取得一些每日天气的情报,可以至中央气象局的RSS,一样使用JSOUP解析网页上的内容
可以使用在JAVA上,当然也能使用在Android上,但需做一些设定,就能将上述四点都应用至Android app
想到待补... ..
JSOUP事前工作
请先至JSOUP官网将JAR载档下来http://jsoup.org/download
将载下来的jar档放到你的要使用的JAVA PRoject底下
(这一步可以不做,但如果换电脑的话罐会找不到或罐子路径错误)
开启撰写平台
点击Java Build Path,并按下右侧的添加外部JAR选择你刚刚载的jsoup.jar档案的路径
(这一步如果在换电脑写程序时,路径会跑掉,得重新再做一次)
加入后会长下面那个样子,这样就表示可以开始使用JSOUP了
JSOUP简单范例程序及说明
下面将以简单的HTML网页作为范例解说:
<html> <head> <meta http-equiv="Content-tyPE" content="text/html;
charset=utf-8"> <tITle>今天你好嗎?</title> </head> <body>