LocoySpider(火车采集器)

时间:2020-09-16

类别:上传下载

软件介绍
 LocoySpider(火车采集器)是针对网络数据进行重点抓取,灵活配置,可以在网页中很好的进行采集和抓取,其中包括图片、文字、文件等各种信息,一键导入功能,支持远程下载文件,拓展性范围广,通用性强,采集速度贼快,功能上还是很强大的。
LocoySpider(火车采集器)
 LocoySpider软件特色
 
 1.支持所有编码格式,还能实现编码之间的完美转换,可以采集全世界网站的文章。
 
 2.多接口;支持所有主流或非主流的CMS,BBS,下载站等,通过系统接口来实现采集器和网站的完美结合.
 
 3.无人值守工作:您配置好程序以后,程序就可以按照您的设置自动运行,完全不需要人工干预。
 
 4.本地编辑采集数据:在本地可视化编辑已采集的数据。
 
 5.采集内容测试功能:可直接查看结果并测试发布,功能很强大。
 
 6.管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
 
 7.完善的插件:支持采网址,采内容,采多页,保存内容时使用插件,可以更方便的进行二次开发。
 
 LocoySpider软件功能
 
 1、规则自定义 - 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
 
 2、多任务,多线程 - 可以同时进行多个信息获取任务,每个任务可以使用多个线程。
 
 3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
 
 4、数据保存 - 数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
 
 5、断点续采 - 信息收集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
 
 6、网站登录 - 支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
 
 7、计划任务 - 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
 
 8、采集范围限制 - 可以根据采集的深度和网址的标识来限制采集的范围。
 
 9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
 
 10、结果替换 - 可以将采集的结果根据规则替换成你定义的内容。
 
 11、条件保存 - 可以根据某个条件来决定那些信息保存,那些信息过滤。
 
 12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
 
 13、特殊链接识别 - 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
 
 14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
 
 15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
 
 LocoySpider采集文章标题步骤
 
 1.采集网址规则,点击添加。
 
 2.选择【批量/多页】,添加有规则的网址,输入首项和页数。点击【添加】完成。
 
 3.采集内容规则。
 
 双击【标题】,弹出标题编辑框。
 
 提取方式一般为【前后截取】,通过观察源代码,填写开始字符串和结束字符串。
 
 添加【html标签排除】【内容添加前后缀】,点击确定就可。
 
 4.发布内容设置。启用方式二来保存采集结果。
 
 文件名格式可以根据自己喜好,任意选择。
 
 文件模板选择,火车头给出的几个默认模板。一般默认为txt,csv,html,excel格式。可以根据自己的喜好来选择模板。
 
 5.设定好之后,保存即可。这时,采集规则已经设定完毕。执行即可得所需要的结果。
软件截图
相关类型 更多+