最近想做個技術(shù)型的網(wǎng)站,不知道用什么cms來做,在網(wǎng)上搜索了一大堆,看到織夢的采集功能還不錯,我也在想啊,做一個站如果所有的文章都需要站長一個一個的加,那不是要累死啊,所以就選著了織夢。
還好自己有點基礎(chǔ),弄了一天就基本弄懂織夢的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂乎,好了,開始采集文章了。好高興,一下就有了2000多篇文章。高興的打開來瞧瞧,哇,突然嚇了一跳,發(fā)現(xiàn)一個文章一看就只有一段沒有完整,打開源原址一看,原來有分頁,在網(wǎng)上找了N久,還是沒有結(jié)果,自己摸索摸索吧,搞了一天一夜幾乎沒有睡覺,我差點都沒有信心了,想著就是采集的文章只有一半,別人怎么看啊,都不想做了,也累了,還是好好睡一覺吧。
也許是老天看我太辛苦了吧,剛想睡覺,突然我一下睡意全無,我太興奮了,我看到了,看到了分頁被我采集了。好了,說了這么多,還是開始進(jìn)入正題了。直接看圖。如果看不懂請打開源網(wǎng)址,查看源文件,和我的教程比較?!¢_始選著左邊的采集,然后打開采集節(jié)點管理,添加新節(jié)點,選著普通文章。1、 文章列表頁采集節(jié)點名稱:自己根據(jù)你的網(wǎng)站目錄和采集內(nèi)容結(jié)合起來。網(wǎng)址:(*l 是有規(guī)則的網(wǎng)址列表?! ∪绻胁灰?guī)則追加就好了。如果只有一頁或幾頁沒有規(guī)則就直接寫在下面手工指定網(wǎng)址就好了?! ?/p>
文章列表匹配規(guī)則。注意要多看幾頁找出相同的,列表頁大體相同,但有些有點小變化,所以要找出幾頁的共同html代碼。
區(qū)域開始的html :
<TBODY> <TR> <TD width="74%" height="796" align=left vAlign=top><BR> <table cellSpacing=0 cellPadding=0 width=490 align=center border=0> <tr> 區(qū)域結(jié)束的html :</tr> <tr> <td class=zhi12 colSpan=2><BR>
建議寫上篩選,一般寫必須包含,這樣準(zhǔn)確點:/flashsl
保存進(jìn)入下一步設(shè)置。以看到下面的圖為準(zhǔn)。
3、 分頁設(shè)置預(yù)覽網(wǎng)址可以更改。選擇有分頁的頁面來預(yù)覽,當(dāng)然最好多預(yù)覽幾頁,主要是和前面一樣代碼可能有小變化,選著相同的html代碼分頁匹配規(guī)則這里只要做過一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。
<p align='center'><b><font color='red'>[內(nèi)容]</b></p><p align=right style="margin:3px 0;">[內(nèi)容]為我們需要的內(nèi)容,這個我想大家都知道了同理做好文章標(biāo)題:(標(biāo)題有兩個地方有,當(dāng)然選簡單的個)<B class=zhi25><FONT color=#003399><BR><BR></FONT></B><B class=zhi25><FONT color=#003399>[內(nèi)容]</FONT></B><br>文章作者:<IMG height=11 src=";">{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}</a>{/dede:trim} 文章內(nèi)容:進(jìn)入網(wǎng)絡(luò)咨詢平臺</strong></a> <strong><span class="style1"> ◆</span></strong><br> <BR class=zhi14>[內(nèi)容]<span style="border:1px dashed #cccccc; margin:3px;">
同樣的需要過濾規(guī)則,你可以先不寫規(guī)則看哈,有什么區(qū)別就知道規(guī)則有什么用了。規(guī)則一定要根據(jù)實際文章來寫。
{dede:trim replace=""}<style([^>]*)>(.*)</style>{/dede:trim}{dede:trim replace=""}<p([^>]*)>{/dede:trim}{dede:trim replace=""}</p>{/dede:trim}{dede:trim replace=""}<SPAN([^>]*)>{/dede:trim}{dede:trim replace=""}</SPAN>{/dede:trim}{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}</a>{/dede:trim}{dede:trim replace=""}</p><p align='center'><b>(.*)</b></p>{/dede:trim}
這一句我多說哈,主要作用是去掉后面的分頁的文字。我開始也考慮把分頁內(nèi)容排除在文章內(nèi)容外面,但是有些文章又沒有分頁代碼,所以在文章的結(jié)尾html不好寫,所以我寫遠(yuǎn)點然后用規(guī)則去掉分頁文字 (同樣的如果不懂先不加這條,比較哈就知道了)
{dede:trim replace=""}<font([^>]*)>{/dede:trim}{dede:trim replace=""}</font>{/dede:trim}分頁采集成功沒有可以看有沒有一個{副標(biāo)題#e#},還有看哈最后一頁采集到?jīng)]有就知道。
圖片看不清楚?請點擊這里查看原圖(大圖)。
中間也有
版權(quán)聲明: 本站資源均來自互聯(lián)網(wǎng)或會員發(fā)布,如果侵犯了您的權(quán)益請與我們聯(lián)系,我們將在24小時內(nèi)刪除!謝謝!
轉(zhuǎn)載請注明: 織夢分頁采集如何做?