易语言采集今日头条知乎免js思路

牛哥儿 發表於 2020-9-20 17:48:00

现在很多网站因为信息量非常大，同时用户和浏览频率也非常的高。
    洪雨不太懂网页方面的东西，不知道是什么原因，或许是访问速度的问题……很多平台都采用js显示网页列表的形式展现网页。
    众所周知，js展现网页很简洁，但是搜索引擎是不收录的。
    这些平台就直接放弃了列表页的收录和排名，直接使用js来加载。
    如果想要采集这类网站，比如今日头条和知乎这样的网站，就需要一定的js功底。虽然可以抓包到关键链接，但是里面里面的重要参数全部来自于js。
    洪雨网页方面的技术不行，js几乎等于不会，无法剥离调用js代码算不出参数来。
    怎么办？
    办法只有一个，就是靠浏览器来运行js，然后直接采集结果。
    通过易语言自带的浏览器组件，最好是miniblink，因为知乎更邪门，居然直接不支持ie，所以超文本浏览框也不行。
    用组件直接浏览网页，该拖动的拖动，该触发的触发，将js彻底运行完毕，让网页展示完整。
    然后用组件取源码，就能获得源代码了，这时候就可以采集相关链接了。
    这种方法的弊端就是效率比较低，需要一定的模拟，但是功能却很强大，直接跳过复杂困难的js，直接肉眼所见即所得。
    无论你js的参数多么的难计算，统统跳过！
  
来源：https://www.cnblogs.com/hongyuyingxiao/p/13701149.html

頁: [1]

圆梦公社's Archiver

易语言采集今日头条知乎免js思路