不处理,废弃新数据 帮助目录 词典
指在更新采集模式下,遇到重复数据时的处理方式:不更新已有数据任何内容,而废弃新采集得到数据。
详:
判断数据是否重复的依据,是根据数据来源页面的url。即根据表单内指定的url记录字段"pandaWebUrl"来判断新旧数据是否有重复。
此模式下,不论新旧数据是否完全一致,或者仅部分一致。均不做任何处理,直接废弃新得到的采集结果数据。
由于需要根据url记录字段"pandaWebUrl"来查找数据是否会重复,当数据库表单内的记录长度非常大时,会严重降低数据库引擎的响应速度,进而严重影响到采集系统的采集运行速度。此时就需要考虑更换更先进的数据库引擎,并对Url记录字段"pandaWebUrl"进行索引处理,可以有效提高采集系统的运行效率。