指在更新采集模式下,遇到重复数据时的处理方式:检查补充新增的内容。
详:
判断数据是否重复的依据,是根据数据来源页面的url。即根据表单内指定的url记录字段"pandaWebUrl"来判断新旧数据是否有重复。
在"检查补充新增的内容"更新模式下,只有当新数据的内容和旧数据的对应字段内容不同时才会修改旧数据对应字段内容,如果旧数据某字段内容为有效,而新结果中该字段内容为空,则不会清空旧数据内该字段的内容。
该模式下,不会修改已有数据的"标识"字段的内容。
由于需要根据url记录字段"pandaWebUrl"来查找数据是否会重复,当数据库表单内的记录长度非常大时,会严重降低数据库引擎的响应速度,进而严重影响到采集系统的采集运行速度。此时就需要考虑更换更先进的数据库引擎,并对Url记录字段"pandaWebUrl"进行索引处理,可以有效提高采集系统的运行效率。