完全覆盖已有数据

指在更新采集模式下，遇到重复数据时的处理方式：完全覆盖已有的旧数据。

详：

判断数据是否重复的依据，是根据数据来源页面的url。即根据表单内指定的url记录字段"pandaWebUrl"来判断新旧数据是否有重复。

当需要完全覆盖已有旧数据时，如果旧数据内的某个字段内容与新的数据内的对应字段内容不同，则旧数据会被新数据覆盖。如果旧数据内的某个字段存在有效内容，而新采集的数据中，该对应字段内容为空。则依旧会使用空数据覆盖有效内容，此时系统会优先使用该字段的默认值来填充覆盖已有数据。

综合来说，"完全覆盖已有数据"的数据更新处理模式，等同先行清空已有记录的(除标识字段外的)所有字段内容，并恢复各字段的默认值，再将新的采集结果填入。该模式下，不会修改已有数据的"标识"字段的内容。

由于需要根据url记录字段"pandaWebUrl"来查找数据是否会重复，当数据库表单内的记录长度非常大时，会严重降低数据库引擎的响应速度，进而严重影响到采集系统的采集运行速度。此时就需要考虑更换更先进的数据库引擎，并对Url记录字段"pandaWebUrl"进行索引处理，可以有效提高采集系统的运行效率。