牛哥儿 發表於 2020-9-20 17:48:00

易语言采集今日头条知乎免js思路

<p>&nbsp; &nbsp; 现在很多网站因为信息量非常大,同时用户和浏览频率也非常的高。</p>
<p>&nbsp; &nbsp; 洪雨不太懂网页方面的东西,不知道是什么原因,或许是访问速度的问题……很多平台都采用js显示网页列表的形式展现网页。</p>
<p>&nbsp; &nbsp; 众所周知,js展现网页很简洁,但是搜索引擎是不收录的。</p>
<p>&nbsp; &nbsp; 这些平台就直接放弃了列表页的收录和排名,直接使用js来加载。</p>
<p>&nbsp; &nbsp; 如果想要采集这类网站,比如今日头条和知乎这样的网站,就需要一定的js功底。虽然可以抓包到关键链接,但是里面里面的重要参数全部来自于js。</p>
<p>&nbsp; &nbsp; 洪雨网页方面的技术不行,js几乎等于不会,无法剥离调用js代码算不出参数来。</p>
<p>&nbsp; &nbsp; 怎么办?</p>
<p>&nbsp; &nbsp; 办法只有一个,就是靠浏览器来运行js,然后直接采集结果。</p>
<p>&nbsp; &nbsp; 通过易语言自带的浏览器组件,最好是miniblink,因为知乎更邪门,居然直接不支持ie,所以超文本浏览框也不行。</p>
<p>&nbsp; &nbsp; 用组件直接浏览网页,该拖动的拖动,该触发的触发,将js彻底运行完毕,让网页展示完整。</p>
<p>&nbsp; &nbsp; 然后用组件取源码,就能获得源代码了,这时候就可以采集相关链接了。</p>
<p>&nbsp; &nbsp; 这种方法的弊端就是效率比较低,需要一定的模拟,但是功能却很强大,直接跳过复杂困难的js,直接肉眼所见即所得。</p>
<p>&nbsp; &nbsp; 无论你js的参数多么的难计算,统统跳过!</p>
<p>&nbsp;</p><br><br>
来源:https://www.cnblogs.com/hongyuyingxiao/p/13701149.html
頁: [1]
查看完整版本: 易语言采集今日头条知乎免js思路