场景:抓取某网站信息在linux上跑,由于某种原因爬虫停了,然后手动kill掉再重启就会出现 不知道和#44:重复抓取报“队列元素重复”一样不
队列元素重复[group=seeds, key=download_http://www.xxx.com/s/#http://www.xxx.com/s/]
<page name="内容页" isPersisted="1" extractor="HtmlCleaner"><!-- 如果不配置extractor属性,则使用默认的 -->
<url-match-rule type="regex" value="^http://www\.xxx\.com/\w+/\d+\.html$" />
<model>
<field name="标题" xpath="" />
...
</model>
</page>
<page name="列表页" extractor="HtmlCleaner">
<url-match-rule type="regex">
^http://www\.xxx\.com/((s/)|(search/r.*))$
</url-match-rule>
<model>
<field name="详情URl" isForNewTask="1" isArray="1" xpath="..." attr="href">
</field>
<field name="分页URL" isForNewTask="1" isArray="1" isDistinct="1" xpath="... attr="href">
</field>
</model>
</page>
再问一下,配置文件的日志级别好像不好使?
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
看了看源码,scheduler.period 配置0的时候默认InitialSeeds的execute方法
group -> {
context.getTaskManager().removeKeys(group);
logger.warn("清除Keys成功[group="+group+"]");
}
这段好像没有执行,这个逻辑不知道是对还是不对,或者是我代码没有看全,还有其他用意?
队列元素重复,是因为./store目录下面有一个持久化db保存了你采集过的网页地址,你重新启动之前手动删除这些文件就可以了。
登录 后才可以发表评论