软件介绍:
鱼羊防采集 鱼羊防采集v4.1.0使用缓存技术避免因服务器重启而导致的重复运算。
匹配结果(如拦截、不拦截等等)会保存到Cache文件夹中,直到超过设置的有效时间为止。
授权更加自助化、方便。用户可自行注册帐号,并给程序运行的服务器进行授权。(注册地址:http://license.fisheep.com/admin/Reg.php 测试期间完全免费)
安装使用教程:http://www.fisheep.com/download/4.1.0install.rar
更新日志:
1.增加数据缓存功能,减少因服务器重启而导致的数据丢失,造成重新计算。
2.优化多处函数,提供程序执行效率。
防采集原理:
采集器有一个特点:只请求关键文件(网页文件:html,asp,php...),而不请求无关文件(css,js,jpg..)并且也不执行网页中的JS。根据这一特点进行筛选便可实现对采集器的封锁。
可能出现的误判情况:
有些网站因需要设置比较特殊,可能导致网站只有网页请求。
另外后台全站生成网页时也可能出现连续请求页面的情况。
所以请根据演示模块做相应的调整,提高程序执行效率,将误杀减少到最小。
为方便大家测试避免不会设置而导致误封搜索引擎蜘蛛,该版本特将百度、Google、雅虎能查到的所有IP加入到不限制IP中。
关于防群发:
群发器也类似与采集器,连续提交页面、或者采集群发相关信息(如可发布的地方、验证码)。可根据人工进行判断出群发的信息,找出其IP地址,根据其IP在IIS日志中分析行为再制作出防群发的模块。
演示模块说明介绍:
1.防采集演示模块1
用于演示程序防采集功能,查看程序是否能准确正常的判断采集器。第一次请求的时候检查是否为百度、Google、雅虎、MSN的蜘蛛(你可以按照规则自行添加其他蜘蛛标志),如果不是接下来如果连续请求五次网页(纯网页,不包含图片、CSS、JS)则记录IP。
2.防采集演示模块2
与防采集演示模块1一样,唯一区别是,IP的行为匹配后不仅仅会做下记录,而且会将起拦截,禁止该IP访问网站。
3.防采集演示模块3
演示模块1和2只是通过客户端资料进行判断是否为蜘蛛,但这个资料完全可以伪造,采集器轻而易举的就可以破解防采集的限制了。对此可先将判断为蜘蛛的IP通过日志收集起来,然后对其进行认证。最后将确认的蜘蛛IP地址加入到不限制IP中,再取消对新蜘蛛的放行。
该模块组中有两个模块:收集蜘蛛IP、拦截连续请求网页的IP。收集蜘蛛IP模块的优先级高于防采集模块。
特别注意:
1.缓存清理间隔:如果某ip被拦截后,在此间隔内均无法访问网站。请根据网站流量大小进行设置。
2.程序只能运行在IIS下,不支持其他WEB服务器。
3.Log文件夹需要写入权限,Cache文件夹需要写入、读取、删除权限(*v4.1.0新增),其他文件均需要读取权限。具体方法请查看http://www.fisheep.com/faq.htmll#Popedom
4.程序运行需要至少一个行为模块,最多支持六十四个行为模块。
5.服务器变量字符串均已转换为小写,写表达式的时候注意将大写改为小写。
关键字: 采集