该方式适合高级用户使用,如果你之前没有使用过采集软件,则可能一时较难理解这种方式。这种方式主要应用在两种场合下:1、列表页面内指向内容页面的链接是通过js方式进行导向。2、需要采集的目标内容页面在当前列表页面中没有明确的链接导向,需要变通实现。
详:
一、通过JS实现的导航:我们会尽快在以后版本的熊猫采集软件中解决对js导航的自动识别。但在目前版本中,你需要通过研究网页代码,找到js链接操作中的关键代码和目标内容页面url符号之间的关联和对应。并把向关联和对应的代码使用指定符号“{<_medi_>}”进行代替即可。
二、变通实现的导航:此种方式可以灵活实现对隐性页面的访问,方法原理上同上。在有必要时可以使用。操作上可以参考相关例题即可。
- 中介模式的工作原理是:
- 根据"网页源码中出现地址参数关键值的源代码"输入框内输入的字符,以约定的替代符号“{<_medi_>}”为界,切分为前后两部分。分别将这两部分代码到网页源码中去匹配查找。如果两项中有一项未能找到,则表示中介匹配失败。 因此约定的替代符号的前后必须要有网页源代码内容存在。
- 如果前后两部分均能在网页中匹配到,且顺序合适。此时找到的两部分代码之间的内容,即是要提取的内容。意即前后两部分代码之间的内容就是用中介替代符号“{<_medi_>}”所替代的内容,也就是要从网页源码中寻找的“关键值内容”。
- 用该“关键值内容”替换 "内容页面地址"内指定的中介替代符号“{<_medi_>}”,替换后的结果即为最终目标结果。
- 如果网页源码中,满足条件的代码块有多个,此处也会一并提取,且结果总数不限。
指定的中介替代符号“{<_medi_>}”为熊猫采集软件人为约定的符号,符号本身不具有特别意义。只是一种约定。使用时要求带上大括号。
如果你并不熟悉网页代码机制,也无法通过我们的描述实现操作,则你可能需要寻求专业网站开发人员的帮助。
如果需要使用中介模式,则必须要研究该标题列表页面的源代码文件,请点击本处的<查看网页源码>按钮,打开该网页源码。此处打开的网页源码,与在浏览器内通过右键选择的"网页源码"结果是略有不同的,前者是经过适当加工后的结果,可以直接应用在此处。也就是说,使用中介模式时,必须直接使用熊猫采集在此处提供的网页源码,否则有可能会出错。