前言:本文是“含有分頁(yè)的普通文章的采集方法“的第三節(jié),在前兩節(jié)的基礎(chǔ)上,將會(huì)對(duì)“如何采集指定節(jié)點(diǎn)”和“如何導(dǎo)出采集內(nèi)容”做詳細(xì)的介紹。為了與前文保持一致,本文將延續(xù)使用前文的章節(jié)標(biāo)記。
上接第二節(jié)。
3.1采集指定節(jié)點(diǎn)
單擊“保存并開始采集“后,將會(huì)進(jìn)入”采集指定節(jié)點(diǎn)“界面,如(圖29)所示,
圖29-采集指定節(jié)點(diǎn)
每頁(yè)采集:這是設(shè)置每頁(yè)所需采集的條數(shù),并可根據(jù)網(wǎng)站是否有防刷新功能,設(shè)置采集間隔時(shí)間。
特殊選項(xiàng):設(shè)置是否檢測(cè)重復(fù)圖片,默認(rèn)為“檢測(cè)”。
附加選項(xiàng):此選項(xiàng)一共有3種采集模式可供選擇:第一種為“監(jiān)控采集模式(檢測(cè)當(dāng)前或所有節(jié)點(diǎn)是否有新內(nèi)容)”,選取后,系統(tǒng)只會(huì)采集指定節(jié)點(diǎn)中更新的內(nèi)容;第二種為“重新下載全部?jī)?nèi)容”,選取后,系統(tǒng)會(huì)采集指定節(jié)點(diǎn)中的全部?jī)?nèi)容;第三種為“下載種子網(wǎng)站的未下載內(nèi)容”,選取后,系統(tǒng)只會(huì)采集指定節(jié)點(diǎn)中未下載過的內(nèi)容,包括以前沒下載的和更新的內(nèi)容。
設(shè)置完成并確定無誤后,可單擊“開始采集網(wǎng)頁(yè)”或者“查看種子網(wǎng)址”。此時(shí),如果單擊“查看種子網(wǎng)址”會(huì)看到列表是空的,這是因?yàn)樾陆⒌牟杉?jié)點(diǎn)從未采集過,如(圖30)所示,
圖30-查看節(jié)點(diǎn)的種子網(wǎng)址
單擊“開始采集網(wǎng)頁(yè)”后,系統(tǒng)便會(huì)開始采集節(jié)點(diǎn)中設(shè)置的網(wǎng)址,并出現(xiàn)相關(guān)提示,如(圖31)所示,
圖31-采集進(jìn)程中提示信息
采集結(jié)束后,再次單擊“查看種子網(wǎng)址”或者單擊頁(yè)面右上角的“查看已下載”,便可看到已采集到的網(wǎng)址信息,如(圖32)所示,
圖32-查看節(jié)點(diǎn)的種子網(wǎng)址
成功采集以后,可以根據(jù)實(shí)際需要選擇頁(yè)面右上角的單擊“采集節(jié)點(diǎn)管理”或者“導(dǎo)出數(shù)據(jù)”。單擊“導(dǎo)出數(shù)據(jù)“后,便可進(jìn)入” 采集管理> 采集內(nèi)容導(dǎo)出“界面,如(圖33)所示,
圖33-采集內(nèi)容導(dǎo)出
“默認(rèn)導(dǎo)出欄目“:設(shè)置要把采集到的內(nèi)容導(dǎo)入到的欄目
“批量采集選項(xiàng)”:如果在采集規(guī)則中已指定欄目ID,則可使用此功能,若指定的欄目ID為0,系統(tǒng)會(huì)把采集內(nèi)容導(dǎo)入到“默認(rèn)導(dǎo)出欄目”所選擇的欄目中。
“發(fā)布選項(xiàng)“:有發(fā)布成“普通文檔”和“保存為草稿”可供選擇。
“每批導(dǎo)入“:設(shè)置每批導(dǎo)入的條數(shù),此數(shù)不宜過大。
“附帶選項(xiàng)“:此處為多選。如果不希望采集到重復(fù)的文章標(biāo)題,可選中“排除重復(fù)標(biāo)題”;如果希望被采集到的內(nèi)容直接生成HTML的話,可選中“完成后自動(dòng)生成導(dǎo)入內(nèi)容HTML”;如果希望系統(tǒng)在采集列表頁(yè)時(shí)自動(dòng)識(shí)別標(biāo)題名,可選中“使用列表索引的標(biāo)題”,一般不建議勾選。
“隨機(jī)推薦”:填入一個(gè)數(shù)字,代表文檔篇數(shù)。在所填入的文檔篇數(shù)內(nèi)隨機(jī)出現(xiàn)一篇推薦文檔,若填入“0”,則表示為不推薦。
設(shè)置完成后,可單擊“確定”,就可以把下載的導(dǎo)入到所選的欄目中了,如(圖34)所示,
圖34-設(shè)置完成后的采集內(nèi)容導(dǎo)出頁(yè)面
同時(shí),系統(tǒng)將會(huì)有導(dǎo)出進(jìn)程提示,如(圖35)所示,
圖35-采集內(nèi)容導(dǎo)出中的提示信息
導(dǎo)出采集內(nèi)容提示“完成所有欄目列表更新”后,單擊“瀏覽欄目”,便可進(jìn)入網(wǎng)站的相關(guān)頁(yè)面查看到采集到的文章列表及其具體內(nèi)容。也可在后臺(tái)管理界面的主菜單中單擊“核心”,然后單擊“普通文章”,進(jìn)入“文檔列表”頁(yè)面,查看所采集到的文章列表,如(圖36)所示,
圖36-文檔列表
在文檔列表中,單擊“用最簡(jiǎn)單網(wǎng)絡(luò) 學(xué)習(xí)IP和ARP協(xié)議”的預(yù)覽按鈕,可打開文章內(nèi)容頁(yè)面,找到頁(yè)面的換頁(yè)部分,如(圖37)所示,
圖37-分頁(yè)
由此可知,含有分頁(yè)文章內(nèi)容已經(jīng)被成功采集到了。
總結(jié),本文詳細(xì)地?cái)⑹隽巳绾尾杉粋€(gè)含有分頁(yè)的普通文章類型的頁(yè)面,并簡(jiǎn)單地涉及到了過濾規(guī)則。對(duì)于采集更為復(fù)雜的普通文章類型的頁(yè)面和使用過濾規(guī)則,將會(huì)在今后文章中介紹。
本文的采集規(guī)則:
{dede:listconfig} {dede:noteinfo notename="采集測(cè)試(二)" channelid="1" macthtype="string" refurl="http://www.bitscn.com/network/protocol/201105/193110.html" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /} {dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.bitscn.com/network/protocol/list_(*).html" startid="1" endid="1" addv="1" urlrule="area" musthas="" nothas="" listpic="1" usemore="0"} {dede:addurls}{/dede:addurls} {dede:batchrule}{/dede:batchrule} {dede:regxrule}{/dede:regxrule} {dede:areastart}<div class="list-cc">{/dede:areastart} {dede:areaend}</div>{/dede:areaend} {/dede:listrule} {/dede:listconfig} {dede:itemconfig} {dede:sppage sptype='full' srul='1' erul='5'}<div class="page next-page">[內(nèi)容]</div>{/dede:sppage} {dede:previewurl}http://www.bitscn.com/network/protocol/201105/193110.html{/dede:previewurl} {dede:keywordtrim}{/dede:keywordtrim} {dede:descriptiontrim}{/dede:descriptiontrim} {dede:item field='title' value='' isunit='' isdown=''} {dede:match}<h1 class="title">[內(nèi)容]</h1>{/dede:match} {dede:function}{/dede:function} {/dede:item}{dede:item field='writer' value='' isunit='' isdown=''} {dede:match}{/dede:match} {dede:function}{/dede:function} {/dede:item}{dede:item field='source' value='' isunit='' isdown=''} {dede:match}<span>來源:[內(nèi)容]</span>{/dede:match} {dede:function}{/dede:function} {/dede:item}{dede:item field='pubdate' value='' isunit='' isdown=''} {dede:match}時(shí)間:[內(nèi)容] <span>{/dede:match} {dede:function}{/dede:function} {/dede:item}{dede:item field='body' value='' isunit='1' isdown='1'} {dede:match}<!--文章塊開始-->[內(nèi)容]<!--文章內(nèi)分頁(yè)結(jié)束-->{/dede:match} {dede:trim replace=""}<div class="contentgg">(.*)</div>{/dede:trim} {dede:trim replace=""}<div align="center" >(.*)</div>{/dede:trim} {dede:trim replace=""}<div class="page next-page">(.*)</div>{/dede:trim} {dede:function}{/dede:function} {/dede:item} {/dede:itemconfig} |
版權(quán)聲明: 本站資源均來自互聯(lián)網(wǎng)或會(huì)員發(fā)布,如果侵犯了您的權(quán)益請(qǐng)與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除!謝謝!
轉(zhuǎn)載請(qǐng)注明: Dedecms織夢(mèng)采集功能的使用教程-含有分頁(yè)的普通文章的采集(三)