WebMagic是java上面經(jīng)常的需要的一款爬蟲(chóng)類(lèi)型的工具了,現(xiàn)在就可以試試最新的0.7.3版本,功能以及使用上面都是完全的免費(fèi)的,歡迎大家試試!
WebMagic中文版功能
WebMagic是一個(gè)簡(jiǎn)單靈活的Java爬蟲(chóng)框架;赪ebMagic,你可以快速開(kāi)發(fā)出一個(gè)高效、易維護(hù)的爬蟲(chóng)。webmagic采用完全模塊化的設(shè)計(jì),功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動(dòng)重試、自定義UA/cookie等功能。
WebMagic常見(jiàn)問(wèn)題
(1)由于我這個(gè)爬蟲(chóng)的抓取有分頁(yè),而且它的分頁(yè)通過(guò)js跳轉(zhuǎn)的,抽取出來(lái)感覺(jué)有點(diǎn)麻煩,我想直接得到所有的信息,發(fā)現(xiàn)可以通過(guò)輸入url地址請(qǐng)求得到所有的信息(這是網(wǎng)站的一個(gè)小問(wèn)題,它沒(méi)有設(shè)置每頁(yè)數(shù)據(jù)記錄條數(shù)的范圍),但是需要登錄才可以進(jìn)行url地址的訪問(wèn),就要使用cookie模擬登錄。
(2)下面分析有關(guān)登錄信息的cookie,我使用的是chrome,點(diǎn)擊如圖位置,會(huì)看到此網(wǎng)站的cookie,(如果已經(jīng)訪問(wèn)了一段時(shí)間了,可以清除所有cookie然后重新登錄再訪問(wèn),否則可能會(huì)有很多的cookie,分析起來(lái)不方便),由于只有5個(gè)cookie,直接加上就可以訪問(wèn)了
WebMagic 0.7.3更新內(nèi)容
本次更新增加了Downloader模塊的一些功能。
#609 修復(fù)HttpRequestBody沒(méi)有默認(rèn)構(gòu)造函數(shù)導(dǎo)致無(wú)法反序列化的bug。
#631 HttpRequestBody的靜態(tài)構(gòu)造函數(shù)不再拋出UnsupportedEncodingException受檢異常。
#571 Page對(duì)象增加bytes屬性,用于獲取二進(jìn)制數(shù)據(jù)。下載純二進(jìn)制頁(yè)面時(shí),請(qǐng)?jiān)O(shè)置request.setBinarayContent(true),這樣對(duì)于二進(jìn)制內(nèi)容不會(huì)嘗試轉(zhuǎn)換為String,減小開(kāi)銷(xiāo)。
#629 在HttpUriRequestConverter中會(huì)自動(dòng)對(duì)一些導(dǎo)致URI異常的字符進(jìn)行轉(zhuǎn)移或過(guò)濾。
#610 自動(dòng)識(shí)別編碼時(shí),可以識(shí)別Content-Type中charset為大寫(xiě)的情況。
#627 支持為Request單獨(dú)設(shè)置頁(yè)面編碼,兼容同一站點(diǎn)多種編碼方式的情況。
#613 Page對(duì)象增加charset屬性,其值為request/site中設(shè)置的charset,或者為自動(dòng)檢測(cè)的charset(未定義時(shí))。
#606 升級(jí)jsonpath到2.4.0
#608 升級(jí)jsoup到1.10.3
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版