网易微博抓取信息抓取 程序代码网易微博抓取信息抓取 程序代码
主函数:
package com;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.net.HttpURLConnection; import java.net.URL;
import java.util.Calendar;
import java.util.TimerTask;
import org.htmlparser.NodeFilter;...
网易微博抓取信息抓取 程序代码
主函数:
package com;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.net.HttpURLConnection; import java.net.URL;
import java.util.Calendar;
import java.util.TimerTask;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter; import org.htmlparser.filters.HasAttributeFilter; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.util.NodeList;
public class SohuTask extends TimerTask {
public void run() {
try {
sohuParser();
Thread.sleep(10);
} catch (InterruptedException e){
e.printStackTrace();
}
}
public void sohuParser(){
try{
String url = "
method=click&f=ws_gs_id";
//BufferedReader in1=new BufferedReader(new
InputStreamReader(System.in));
//url=in1.readLine();
Parser parser = new Parser( (HttpURLConnection) (new
URL(url)).openConnection() );
Parser parser1= new Parser( (HttpURLConnection) (new
URL(url)).openConnection() );
// 这里是控制测试的局部,后面的
修改的就是这个地方
。
NodeFilter tag =new TagNameFilter("p");
NodeFilter tag1 =new TagNameFilter("a");
NodeFilter filter = new HasAttributeFilter
("class","message");
NodeFilter filter1=new HasAttributeFilter
("class","time");
NodeFilter last =new AndFilter(tag,filter);
NodeFilter last1 =new AndFilter(tag1,filter1);
NodeList nodes = parser.extractAllNodesThatMatch
(last);
NodeList nodes1 = parser1.extractAllNodesThatMatch
(last1);
if(nodes!=null) {
for (int i = 0; i
本文档为【网易微博抓取信息抓取 程序代码】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。