美女18禁一区二区三区视频,被三个男人绑着躁我好爽视频,国产又爽又黄无码无遮挡在线观看,久久精品午夜一区二区福利

網(wǎng)頁抓取工具之?dāng)?shù)據(jù)預(yù)處理

2017-05-26 15:05:39 瀏覽:8714


提取的數(shù)據(jù)還不能直接拿來用?文件還沒有被下載?格式等都還不符合要求?別著急,網(wǎng)頁抓取工具火車采集器自有應(yīng)對方案——數(shù)據(jù)處理。

圖片1.png

網(wǎng)頁抓取工具的數(shù)據(jù)處理功能包括三個部分,分別是內(nèi)容處理、文件下載、內(nèi)容過濾。下面依次給大家介紹:

1、內(nèi)容處理:對從內(nèi)容頁面提取的數(shù)據(jù)進(jìn)行替換、標(biāo)簽過濾、分詞等進(jìn)一步處理,我們可以同時(shí)添加多個操作,但這里需要注意的是,有多個操作時(shí)是按照從上到下的順序來執(zhí)行,也就是說,上個步驟的結(jié)果會作為下個步驟的參數(shù)。

下面來逐個介紹一下:

①提取內(nèi)容為空:如果通過前面的規(guī)則無法準(zhǔn)確提取或提取到的內(nèi)容為空,則選擇此項(xiàng),此項(xiàng)應(yīng)用后會使用正則匹配從原始頁面中再次提取一次。

②內(nèi)容替換/排除:將采集到的內(nèi)容進(jìn)行字符串替換,如需排除,則替換為空字符串即可,功能很靈活。如下圖,可直接對內(nèi)容進(jìn)行替換,也可對字符串進(jìn)行參數(shù)替換等(區(qū)別于工具欄中的同義詞替換)。

③html標(biāo)簽過濾:過濾指定html標(biāo)簽,比如<a ,<font。這樣采集出來的內(nèi)容就不會帶有源碼中一些樣式標(biāo)簽,更符合我們的使用標(biāo)準(zhǔn)。

④字符截取:通過開始和結(jié)束字符串對內(nèi)容進(jìn)行截取。適用于對已提取內(nèi)容的截取調(diào)整。

⑤純正則替換:如果一些內(nèi)容(比如單一出現(xiàn)的文字)無法通過通用的內(nèi)容替換來操作,那么則需要通過強(qiáng)大的正則表達(dá)式進(jìn)行復(fù)雜的替換。

如“火爆的美式餐廳都在這里”,我們將其替換為“美式餐廳”,正則表達(dá)式如下:

圖片2.png

    ⑥數(shù)據(jù)轉(zhuǎn)換:包括將結(jié)果簡轉(zhuǎn)繁、將結(jié)果繁轉(zhuǎn)簡、自動轉(zhuǎn)化為拼音和時(shí)間修正轉(zhuǎn)化,共計(jì)四項(xiàng)處理。

⑦智能提?。喊ㄌ崛〉谝粡垐D片、智能提取時(shí)間、智能提取郵箱、智能提取手機(jī)號碼、智能提取電話號碼。

⑧高級功能:包括自動摘要、自動分詞、自動分類、Http請求、字符編碼轉(zhuǎn)換、同義詞替換、空內(nèi)容缺省值、內(nèi)容加前后綴、隨機(jī)插入、運(yùn)行C#代碼、批量內(nèi)容替換,統(tǒng)計(jì)標(biāo)簽字符串長度等一系列功能。

⑨補(bǔ)全單網(wǎng)址:將當(dāng)前內(nèi)容作為一個網(wǎng)址進(jìn)行補(bǔ)全。

2、文件下載:可以自動探測并下載文件,可設(shè)置下載路徑和文件名樣式。

注意:文件下載中所指下載圖片是源代碼里有標(biāo)準(zhǔn)樣式<img src="圖片地址"/>標(biāo)簽的圖片地址。

比如是一個直接的圖片地址http://www.sc9888.com/logo.gif ,或者不規(guī)則的圖片源碼,采集器將會視為文件下載。

①將相對地址補(bǔ)全為絕對地址:勾選后會把標(biāo)簽采集到的相對地址補(bǔ)全為絕對地址。

②下載圖片:勾選后源代碼里的含標(biāo)準(zhǔn)樣式<img src="圖片地址"/>的代碼圖片將被下載。

③探測文件真實(shí)地址但不下載:有時(shí)候采集到的是附件下載地址,而非真實(shí)的下載地址,點(diǎn)擊后會有跳轉(zhuǎn)。這種情況下勾選此項(xiàng)會將真實(shí)地址采集出來,但是只是得到下載地址并不下載。

④探測文件并下載:勾選后可以把采集到的任何格式的文件附件下載下來。

3、內(nèi)容過濾:對于一些不符合條件的記錄,可以通過設(shè)置內(nèi)容過濾來刪除或標(biāo)記為未采。內(nèi)容過濾有以下幾個處理方法:

①內(nèi)容不得包含和內(nèi)容必須包含:可以設(shè)置多個詞,支持選擇所有條件都必須滿足或滿足其中一個條件即可。

②采集結(jié)果不得為空:該功能可以讓某個字段不出現(xiàn)空內(nèi)容。

③采集結(jié)果不得重復(fù):該功能可以讓某個字段不出現(xiàn)重復(fù)內(nèi)容。設(shè)置此項(xiàng)前請確保沒有采集過數(shù)據(jù),或者需先清空采集數(shù)據(jù)。

④當(dāng)內(nèi)容長度小于(大于,等于,不等于)N時(shí)過濾:一個符號或一個字母或一個數(shù)字或一個漢字都計(jì)作一個。

注意:對于滿足上述四條中的任何一條或者多條的情況下,可以在采集器的其他設(shè)置功能里設(shè)置直接刪除此條記錄,或把此條記錄標(biāo)記為未采集下次運(yùn)行任務(wù)時(shí)會再次采集。

網(wǎng)頁抓取工具火車采集器中配備一系列數(shù)據(jù)處理的好處是,當(dāng)我們需要進(jìn)行的只是一個很小的操作時(shí),不需要再去寫插件,去生成和編譯,而是通過一步點(diǎn)擊就可以將數(shù)據(jù)處理成我們需要的樣子了。

 

掃碼關(guān)注微信
熟女俱乐部五十路六十路av | 书生屁股被cao成sao货男男| 大陆极品少妇内射AAAAAA| a片在线播放| 国精产品一码二码三m| 粗大抽搐白浊h高干h| 黑色包臀裙秘书啪啪久久网站| 国产成人无码免费网站| 被多个强壮的黑人灌满精| 精品无人国产偷自产在线| 国产suv精品一区二区| 嫦娥仙子含精肉臀迎合| 制服 小说 亚洲 欧美 校园| 体验区试看120秒啪啪免费| a级国产乱理伦片在线观看| 性高朝久久久久久久| 真人高清实拍女处被破的视频| 久久国产精品免费一区| 擦老太bbb擦bbb擦bbb擦| 国产精品扒开腿做爽爽的视频| 最近韩国日本免费高清观看| 日韩激情无码激情a片免费软件| 55夜色66夜色国产精品视频| 欧洲美熟女乱又伦av影片| 久久精品无码av| 孩交精品xxxx视频视频| 天天躁日日躁狠狠躁免费麻豆| 狠狠88综合久久久久综合网| 国产chinesehdxxxx宾馆tube| 亚洲AV永久无码精品尤物| 久久亚洲AV无码精品色午夜麻豆 | 我偷偷跟亲妺作爱h在线观看| 国产伦精品一区二区三区免费迷 | 18无码粉嫩小泬无套在线观看 | 亚洲色偷偷综合亚洲av78| 久久aⅤ无码av高潮av喷吹| bbbbb妓女毛片免费a片| 亚洲精品久久无码老熟妇| 亚洲国产精品久久久久婷婷图片| 中国少妇xxxx做受| 国产亚洲欧美精品永久 |