火車頭采集規(guī)則都收費,這篇火車頭WordPress發(fā)布規(guī)則寫法教程送給大家。由于wordpress有登錄鑒權(quán),為了方便采集,有人采用了PHP接口+火車頭進行采集的方案,個人覺得這種方案非常好用,推薦給大家使用。
學會本文后,你將能自己獨立寫wordpress的發(fā)布規(guī)則,配合上文的火車頭采集規(guī)則教程,下一個采集大王就是你!
這里的發(fā)布規(guī)則是以火車頭采集器為例。發(fā)布就是提交數(shù)據(jù)到服務器,服務器的程序能把數(shù)據(jù)正確寫入數(shù)據(jù)庫的過程。這里的服務器程序可以是網(wǎng)站程序,也可以是自己寫的接口,只要能將數(shù)據(jù)正確寫入數(shù)據(jù)庫即可。提交數(shù)據(jù)這里就需要大家有post基礎了,簡單說一下post傳遞數(shù)據(jù)的過程吧。HTTP傳遞數(shù)據(jù)主要有兩種方式,一種是get一種是post。get一般用來獲取數(shù)據(jù),可以攜帶少量參數(shù)數(shù)據(jù),post在此基礎上可以攜帶大量數(shù)據(jù),比如我們一篇長達1000字的文章等。
我們通過瀏覽器的F12network標簽可以看到,每次請求網(wǎng)頁的請求類型和詳情。采集的發(fā)布規(guī)則就是模擬提交post請求給網(wǎng)站程序,讓網(wǎng)站程序認為是我們?nèi)斯げ僮鞯摹?/p>
前面說到wordpress有鑒權(quán)機制,如果你沒有權(quán)限,wordpress是不會讓你發(fā)布文章的,因此,我們只能解密wordpress的登錄算法,拿到用戶登錄憑證才能正常發(fā)布文章,這樣做過于麻煩。為了簡單,我們可以為wordpress增加一個不需要鑒權(quán)的接口,在這個接口中直接操作數(shù)據(jù)庫即可。
搞清楚原理,我們就可以開始寫接口了,代碼過多,我就不貼代碼了,完整代碼在文章末尾會給,自行下載。先來看看火車頭的發(fā)布模塊是什么樣的結(jié)構(gòu),了解后我們才能寫接口程序。
自動登錄可以直接忽略,我們使用自己的接口不需要登錄。在發(fā)布文章的時候我們需要知道發(fā)布到哪個分類中,因此,首先需要提供的接口就是所有的分類及ID。如上圖所示,我定義了一個get接口,接口文件名是post.php
,提交了一個get參數(shù)action,值是list。對應的接口程序如下圖:
在火車頭發(fā)布規(guī)則中,我們需要的分類ID與分類名稱被變量替代了,看了前面各種采集器爬蟲程序?qū)崿F(xiàn)原理科普文一文應該有所了解了。
這段接口代碼與火車頭發(fā)布配置在火車頭中的效果是這樣的:
同樣的,還有提交的post數(shù)據(jù),即文章內(nèi)容,火車頭發(fā)布模塊規(guī)則如下:
接口代碼我就不貼了,自己下載文末的接口文件看吧。
版權(quán)聲明: 本站資源均來自互聯(lián)網(wǎng)或會員發(fā)布,如果侵犯了您的權(quán)益請與我們聯(lián)系,我們將在24小時內(nèi)刪除!謝謝!
轉(zhuǎn)載請注明: WordPress火車頭發(fā)布規(guī)則教程