一般我們采集規(guī)則寫好后,比較郁悶的就是內(nèi)容里的鏈接了,因?yàn)槲也幌肟吹絻?nèi)容里有別人網(wǎng)站的鏈接,當(dāng)然更不用說廣告了。這里需要說明的是,下面的方式只可以替換掉一些規(guī)則或者相對規(guī)則的鏈接和廣告,只要那些比較變態(tài)的網(wǎng)站在內(nèi)容里加很多隨機(jī)文字的,那就沒辦法了。
過濾廣告最簡單的方式是在“過濾廣告正則”的輸入框里輸入相應(yīng)的正則,4.7以前的沒有帶,4.7以后的系統(tǒng)帶的有,下面是個(gè)比較全些的廣告過濾正則:
<a[!--ad--]>,</a>,<A[!--ad--]>,</A>,<div[!--ad--]>,</div>,<DIV[!--ad--]>,</DIV>,<iframe[!--ad--]</iframe>,<IFRAME[!--ad--]</IFRAME>
基本上已經(jīng)夠了。
如果過濾內(nèi)容里的鏈接呢?這里可以在 過濾選項(xiàng) 的 替換:(針對標(biāo)題與內(nèi)容) 里輸入正則,多個(gè)用逗號分開,但是不要在這里寫<a[!--ad--]>,</a>,<A[!--ad--]>,</A>,這樣的正則,因?yàn)檫@樣你會采不到頁面,呵呵,它把你采集的頁面都給過濾了。
版權(quán)聲明: 本站資源均來自互聯(lián)網(wǎng)或會員發(fā)布,如果侵犯了您的權(quán)益請與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除!謝謝!
轉(zhuǎn)載請注明: 如果去除采集內(nèi)容里的鏈接和廣告