博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Crawler 不需要写代码的爬虫 不需要写正则的爬虫
阅读量:6497 次
发布时间:2019-06-24

本文共 1101 字,大约阅读时间需要 3 分钟。

hot3.png

Crawler V1.0.0

  1. 代码还没有优化

  2. 框架结构很简单

  3. 部分功能需要你们给我需求,我后期添加测试

操作指南

命令:java -jar Crawler.jar -[option]
    -v  爬虫的版本信息
    -h  爬虫的帮助文档
    -ct [url]  爬虫爬取一个网站测试 URL:测试的URL地址
    -cw [url] [k,v] 测试信息抽取 | URL:测试的URL | [k,v] title,div[class=title] 如果有多个参数,使用#隔开
    -ci [urllist] [k,v] 
 把抽取的信息规则保存xml中,可以使用SQL工具的导入向导导入到数据库或者转成其他格式| 
 保存结果目录
    -cl [url] [k,v] 
 把某URL的列表URL保存到文件中,可以用ci进行深入爬取

E.g 例子

1、-ci URL文件 爬虫规则 输出路径

URL文件

2、执行java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml

执行结果

然后我们可以使用SQL导入向导,用xml导入的方式,然后又可以转换为XML、TXT、EXCEL、WORD等多种格式。Navicat工具等

3、-cl命令就是用来生成urllist.txt 然后执行ci命令即可

我的邮箱 BUG直接ISS或者邮件,你把你的需求告诉我,我来完善,我自己手头有一堆还没完善。

已经完成的:

1、URL格式化,部分网站的URL以"/" "./" "../" "//" 这些已经解决了

2、HTTP代理接口,有了 还没有加

3、自定义UA和Cookie登录 也有了,没有加

4、JDBC之前有,感觉没有xml导入的快,是个累赘 删除了

5、预留了个性化工具,批量提取EMail、QQ、手机号等

6、给SQLMAP做了接口,可在后期实现自动化注入测试和XSS测试

7、可以给Nutch结合上

8、还有问题给我提,我记记,然后慢慢完善。代码是开源 JavaGUI你懂

PS:使用者必须要有Java运行时环境


现在的功能可与Shell DOS命令结合:定时爬虫、分布式爬虫,可以自由组合

OSchina:

命令已经改变了许多,请看Git中的说明

转载于:https://my.oschina.net/u/2311702/blog/645748

你可能感兴趣的文章
WebGL Hello World Triangle Test
查看>>
第三周学习进度表
查看>>
[LeetCode]Perfect Squares
查看>>
[Heoi2013]Segment
查看>>
数据结构 队列的操作
查看>>
sqlDevelopor客户端操作MySQL数据库
查看>>
8.行命令按钮
查看>>
Codeforces Round #560 (Div. 3)
查看>>
android 网络小结
查看>>
信息安全C散列函数的应用及其安全性2016011992
查看>>
13、自平衡二叉查找树AVL
查看>>
浏览器兼容性参考【转】
查看>>
PAT 1030 Travel Plan[图论][难]
查看>>
greendao数据库初次使用的配置及多表关联的初始化
查看>>
【vue】vue中实现导出excel
查看>>
PHP页面跳转几种实现方法
查看>>
leetcode976
查看>>
uni-app学习
查看>>
JS中的“!!”
查看>>
适配器模式--在NBA我需要翻译
查看>>