前言:這篇文章是為了初次接觸Dedecms采集功能的朋友所寫的。所選取的目標(biāo)站點(diǎn)為文章內(nèi)容頁面不含有分頁的Dedecms官方網(wǎng)站的dreameaver欄目文章,通過圖文并茂的形式,詳細(xì)地介紹了如何創(chuàng)建一個(gè)基本的采集規(guī)則。本文共分為三節(jié):第一節(jié),主要是介紹如何進(jìn)入采集界面和新增采集節(jié)點(diǎn)中的第一步:設(shè)置基本信息及網(wǎng)址索引頁規(guī)則;第二節(jié),主要是介紹新增采集節(jié)點(diǎn)中的第二步:設(shè)置字段獲取規(guī)則;第三節(jié),主要是介紹如何采集指定節(jié)點(diǎn)和如何導(dǎo)出采集內(nèi)容。下面進(jìn)入第一節(jié)。
如(圖1)所示,在后臺(tái)管理界面的主菜單中單擊"采集",然后單擊"采集節(jié)點(diǎn)管理",即可進(jìn)入采集節(jié)點(diǎn)管理界面,如(圖2)所示。
圖1-后臺(tái)管理界面
圖2-采集節(jié)點(diǎn)管理界面
在采集節(jié)點(diǎn)管理界面中,單擊左下角的"增加新節(jié)點(diǎn)"或者右上角的"添加新節(jié)點(diǎn)"(如圖2),都可進(jìn)入"選擇內(nèi)容模型"界面,如(圖3)所示,
圖3-選擇內(nèi)容模型界面
在"選擇內(nèi)容模型"界面的下拉列表框中,有"普通文章"和"圖片集"可供選擇。根據(jù)被采集頁面的類型,選擇相應(yīng)的內(nèi)容模型。本文這里選擇"普通文章",單擊確定后,便可進(jìn)入"新增采集節(jié)點(diǎn):第一步設(shè)置基本信息及網(wǎng)址索引頁規(guī)則"界面,如(圖4)所示,
圖4-新增采集節(jié)點(diǎn):第一步設(shè)置基本信息及網(wǎng)址索引頁規(guī)則
圖5-節(jié)點(diǎn)基本信息
如(圖5)所示,
節(jié)點(diǎn)名稱:給新建立的節(jié)點(diǎn)起一個(gè)名字,這里填上"采集測試(一)";
目標(biāo)頁面編碼:設(shè)定被采集目標(biāo)頁的編碼格式,有GB2312、UTF8和BIG5三種??赏ㄟ^在被采集目標(biāo)頁面上,單擊右鍵后選擇"查看源文件"來獲取。
操作步驟:
(a)打開被采集的目標(biāo)頁:http://www.dedecms.com/knowledge/web-based/dreamweaver/;
(b)單擊右鍵后選擇"查看源文件",找到"charset", 如(圖6)所示,
圖6-查看源文件
其等號(hào)后面的代碼就是所需的"編碼格式",這里是"gb2312"。
"區(qū)域匹配模式":設(shè)定如何匹配所需采集的內(nèi)容部分,可采用字符串或者正則表達(dá)式。系統(tǒng)默認(rèn)的模式是字符串。如果比較了解正則表達(dá)式的朋友,可以在這里選擇正則表達(dá)式的模式。
"內(nèi)容導(dǎo)入順序":指定文章列表導(dǎo)入時(shí)候的順序,可以選擇"與目標(biāo)站一致"或"與目標(biāo)站相反"。
"防盜鏈模式":針對被采集的目標(biāo)站點(diǎn)有無刷新限制。一開始很難判斷出來,需要測試后才能知道。如果有的話,這里需要設(shè)置一下"資源下載超時(shí)時(shí)間"。
"引用網(wǎng)址":填入任何一個(gè)即將被采集的文章內(nèi)容頁面的網(wǎng)址。
具體操作步驟:
(a)在已打開的文章列表頁中,單擊第一篇文章的
標(biāo)題"在Dreamweaver中為插入的Flash添加透明",以打開文章內(nèi)容頁面,如(圖7)所示,
圖7-文章內(nèi)容頁面
(b)此時(shí)在瀏覽器的URL地址欄中顯示的網(wǎng)址,即為需要填寫在"引用網(wǎng)址"處的網(wǎng)址,如(圖8)所示,
圖8-瀏覽器的URL地址欄
到這里,"節(jié)點(diǎn)基本信息"就設(shè)置完成了。最后結(jié)果,如(圖9)所示,
圖9-設(shè)置后的節(jié)點(diǎn)基本信息
檢查無誤后,進(jìn)入下一步設(shè)置。
如(圖10)所示,
圖10-列表網(wǎng)址獲取規(guī)則
這里是設(shè)置被采集的文章列表頁的匹配規(guī)則。如果被采集的文章列表頁有一定的規(guī)律,可選擇"批量生成列表網(wǎng)址";如果被采集的文章列表頁完全沒有規(guī)律可循,那么可選擇"手工指定列表網(wǎng)址";如果被采集的站點(diǎn)提供了RSS,則可以選擇"從RSS中獲取"。對于特殊情況,例如:部分列表頁有規(guī)律,而其余的又沒有規(guī)律,則可在"匹配網(wǎng)址"中填上有規(guī)律的部分,然后把沒有規(guī)律的部分填寫在"手動(dòng)指定網(wǎng)址"。
具體操作步驟:
(a)首先,回到已打開的文章列表頁,找到瀏覽器的URL地址欄中顯示的網(wǎng)址(圖8)和頁面底部的換頁部分。如(圖11)所示,
圖11-換頁
(b)單擊"2",打開文章列表頁的第二頁,此時(shí)瀏覽器的URL地址欄中所顯示的網(wǎng)址和頁面底部的換頁部分,如(圖12)和(圖13)所示,
圖12-第二頁的網(wǎng)址
圖13-第二頁的換頁部分
(c)在已打開的文章列表頁的第二頁上面,單擊(1),打開文章列表頁的首頁,這時(shí)頁面底部的換頁部分與圖11相同,而瀏覽器的URL地址欄中所顯示的網(wǎng)址與之前圖8并不相同,如(圖14)所示,
圖14-第一頁的網(wǎng)址
(d)由(b)和(c)推知,此處被采集的文章列表頁的網(wǎng)址所遵循規(guī)律為:
http://www.dedecms.com/knowledge/web-based/dreamweaver/list_47_(*).html。穩(wěn)妥起見,請自行測試更多列表頁。確定規(guī)律后,在"匹配網(wǎng)址"中,填入文章列表頁所遵循的規(guī)律。
(e)最后,指定需要采集的頁碼或者規(guī)律數(shù)字,并設(shè)定其遞增規(guī)律。
到這里,"列表網(wǎng)址獲取規(guī)則"部分就設(shè)置結(jié)束了。最后結(jié)果,如(圖15)所示,
圖15-設(shè)置后的列表網(wǎng)址獲取規(guī)則
確定正確后,進(jìn)入下一步設(shè)置。
如(圖16)所示,
圖16-文章網(wǎng)址匹配規(guī)則
這里是設(shè)置被采集文章列表頁的匹配規(guī)則。
具體操作步驟:
(a)對于"區(qū)域開始的HTML",可通過在打開的文章列表首頁上,單擊右鍵后選擇"查看源文件"。在源文件中,找到第一篇文章的標(biāo)題"在Dreamweaver中為插入的Flash添加透明",如(圖17)所示,
圖17-查看源文件中,第一篇文章的標(biāo)題
通過觀察,不難看出"<div class="arc_list">"為整個(gè)文章列表的開始部分。因此,在"區(qū)域開始的HTML"中,填入"<div class="arc_list">"。
(b)在源文件中,找到最后一篇文章標(biāo)題"通過Dreamweaver設(shè)計(jì)網(wǎng)頁時(shí)組織CSS的建議",如(圖18)所示,
圖18-查看源文件中,最后一篇文章的標(biāo)題
結(jié)合文章列表的開始部分并通過觀察可知,第一個(gè)"</div>"為整個(gè)文章列表的結(jié)束部分。因此,在"區(qū)域結(jié)束的HTML"中,應(yīng)填入"</div>"。
"如果鏈接中含有圖片":設(shè)置對鏈接中含有圖片的處理方式,有不處理和采集為縮略圖可選??筛鶕?jù)實(shí)際需要選擇。
"對區(qū)域網(wǎng)址進(jìn)行再次篩選":可以使用正則表達(dá)式對區(qū)域網(wǎng)站進(jìn)行再次篩選,這是針對一些需要被保留或者需要濾掉的內(nèi)容,尤其是混編的列表頁面,通過使用"必須包含"或者"不能包含"過濾掉所希望獲取或者不希望獲取的文章內(nèi)容頁面的網(wǎng)址。
具體操作步驟:
回到正在打開的文章列表首頁的源文件,通過觀察可知,每一個(gè)文章內(nèi)容頁面地址的擴(kuò)展名均為.html。因此,可在"必須包含"中,填入".html"。
到這里,"文章網(wǎng)址匹配規(guī)則"就設(shè)置結(jié)束了。最后結(jié)果, 如(圖19)所示,
圖19-設(shè)置后的文章網(wǎng)址匹配規(guī)則
通過1.2.1小節(jié)、1.2.2小節(jié)和1.2.3小節(jié),新增采集節(jié)點(diǎn)的第一步就已經(jīng)設(shè)置完成了。設(shè)置后的結(jié)果,如(圖20)所示,
圖20-設(shè)置后的新增采集節(jié)點(diǎn):第一步設(shè)置基本信息及網(wǎng)址索引頁規(guī)則
全部完成并檢查無誤后,單擊"保存信息并進(jìn)入下一步設(shè)置"。如果之前設(shè)置正確,單擊后,將會(huì)進(jìn)入"新增采集節(jié)點(diǎn):測試基本信息及網(wǎng)址索引頁規(guī)則設(shè)置的網(wǎng)址獲取規(guī)則測試"頁面并看到相應(yīng)的文章列表地址。如(圖21)所示,
圖21-網(wǎng)址獲取規(guī)則測試
確定正確無誤后,單擊"保存信息并進(jìn)入下一步設(shè)置"。否則,請單擊"返回上一步進(jìn)行修改"。
版權(quán)聲明: 本站資源均來自互聯(lián)網(wǎng)或會(huì)員發(fā)布,如果侵犯了您的權(quán)益請與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除!謝謝!
轉(zhuǎn)載請注明: Dedecms織夢后臺(tái)模板下載采集功能的使用方法詳解