指在更新采集模式下,遇到重复数据时的处理方式:完全覆盖已有的旧数据。
详:
判断数据是否重复的依据,是根据数据来源页面的url。即根据表单内指定的url记录字段"pandaWebUrl"来判断新旧数据是否有重复。
当需要完全覆盖已有旧数据时,如果旧数据内的某个字段内容与新的数据内的对应字段内容不同,则旧数据会被新数据覆盖。如果旧数据内的某个字段存在有效内容,而新采集的数据中,该对应字段内容为空。则依旧会使用空数据覆盖有效内容,此时系统会优先使用该字段的默认值来填充覆盖已有数据。
综合来说,"完全覆盖已有数据"的数据更新处理模式,等同先行清空已有记录的(除标识字段外的)所有字段内容,并恢复各字段的默认值,再将新的采集结果填入。该模式下,不会修改已有数据的"标识"字段的内容。
由于需要根据url记录字段"pandaWebUrl"来查找数据是否会重复,当数据库表单内的记录长度非常大时,会严重降低数据库引擎的响应速度,进而严重影响到采集系统的采集运行速度。此时就需要考虑更换更先进的数据库引擎,并对Url记录字段"pandaWebUrl"进行索引处理,可以有效提高采集系统的运行效率。