UU网页列表抓取工具的原理
UU死链检查工具通过命令行启动浏览器或实用插件方式设置浏览器允许跨域请求,直接使用JS下载列表中的每一项链接的HTML,支持数据打包导出和简单数据处理。
请根据自身网络实际情况合理设置加载超时时间,如发现抓取失败的链接,可手动重新抓取一次。
如果抓取网页列表数量过多,请注意分多次抓取并及时导出,避免数据丢失,抓取期间浏览器不能刷新,否则数据将完全丢失!
浏览器要求?
本工具默认工作于较新版本的Chrome浏览器,由于原生的浏览器有跨域请求限制,故无法直接抓取数据,需要对浏览器进行相关设置, 一般有命令行方式启动Chrome或使用Chrome插件解除跨域限制。
1、使用命令行启动浏览器。
打开CMD命令行,输入 "C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --disable-web-security --user-data-dir=c:/
回车打开浏览器,请注意前面浏览器路径,如发现路径错误提示,请根据实际情况更换成正确的路径。
如果一切正常,则会启动浏览器,且可以在浏览器地址栏下方看到提示:
您使用的是不受支持的命令行标记: --disable-web-security。稳定性和安全性会有所下降。
如果未能启动或没有在 --disable-web-security
模式下启动,说明操作失败,请自行google一下相关方法(搜:Chrome 解除 跨域 限制),可能会应浏览器版本不通而操作不一样。
2、使用插件解除跨域限制。[强烈推荐!]
自行到google插件商店安装并启动
Allow CORS: Access-Control-Allow-Origin。
数据导出格式?
网站列表数据将会被导出为一个txt文件,每一行包含一个网址数据,数据为JSON格式,包含url,html,status三个字段,分别表示网站URL,网站的HTML源码和采集状态。 其中采集状态0表示队列中,1表示正在抓取,2表示抓取成功,3表示抓取失败。
数据导出后,可以直接导入之前导出的数据继续处理。
注意事项
在使用本工具前,请务必确保已经解除了跨域限制,否则虽然显示抓取成功,实际上却没有抓取到数据,具体可以按 F12
查看是否有相关跨域限制的错误,
也可以查看网址列表右上方的实时抓取数据长度统计,如果采集成功,数据长度应该合理地增加。
切记小批量采集,常导出数据,以免数据丢失,造成功亏一篑!