有些采集项目是一次性的采集即可,而有些项目,如某些垂直搜索引擎则需要通过频繁的采集来及时获取最新的数据。对于只需要一次性采集的项目,不必选中“启用定期更新功能”单选按钮。
详:
选中“启用定期更新功能”后,可以设置下次更新采集行为的时间或者间隔。时间间隔,一般是从上次运行结束才开始计时。
选中“启用定期更新功能”,会涉及到更新访问时,对已访问页面的重复访问而获得的重复数据的处理问题:或废弃、或部分更新、或全部更新。此时就必须在数据库表单内增加用于记录被采集数据的来源url的字段的定义,通过该字段可以判断是否是重复访问。系统强制指定该字段名称为"pandaWebUrl",如果相关表单内容缺少该字段,系统会强制增加该名称字段到存储表内。
具体设置将在下个<数据库设置>环节实现。
对于选择了"启用定期更新功能"的采集项目,在每次采集运行结束后,该项目自动进入定时运行状态,待约定的定时时间到后,该项目会自动进行采集运行,此过程无需人工干预。反之。如果采集项目没有选择"启用定期更新功能",则在该采集项目的第一次运行结束后,就彻底不会再自动更新采集运行,项目将彻底运行结束。
对于没有选择"启用定期更新功能"的采集项目,如果需要再次重新采集时,可以通过主窗口的"项目管理"菜单下的"重置项目状态"命令来重置项目状态为初始。此时就可以再次重新进行采集运行。
定期更新的时间定义,有四种种类,用户可根据项目的实际需要进行相应选择。在选择"间隔__小时"时,其计算方法是在上次运行结束后开始计时。
熊猫采集软件可以实现大部分垂直搜索引擎的访问采集功能。配合熊猫系统的分词索引检索模块,即可低成本的轻松构建一个复杂的行业垂直搜索引擎。