視采采集�是一款所見即所得的采集別人�(wǎng)站數(shù)�(jù)和論壇文章帖子的�(shù)�(jù)采集軟件,它使用非傳�(tǒng)的采集先進技�(shù),支持所見即所�、即時預�,網(wǎng)站自動采集,智能化規(guī)則匹�,多級過�,無限深度、無限分頁等先進功能,可作為論壇采集器、博客采集器�CMS采集器等�(wǎng)站數(shù)�(jù)采集工具使用�
互聯(lián)�(wǎng)應用
隨著互聯(lián)�(wǎng)的發(fā)展及普及,互�(lián)�(wǎng)用戶迅速增�,上�(wǎng)已成為人們生活中的日常內(nèi)�,人們通過�(wǎng)站閱讀,發(fā)�,搜�,交�,購物等,所有這些上網(wǎng)行為,由點到�,都將匯聚龐大的商業(yè)價�。因此,互聯(lián)�(wǎng)成為眾多人的夢想帝國,淘金之�。不管您是腰纏萬�,還是身無分�,這里只談信息為王,服務至�。因此信息的�(chuàng)�、收�、組織和再加工是�(wǎng)站的生存基礎。信息采集系�(tǒng)可以通過�(wǎng)站管理員指定的網(wǎng)站地址和預定義的抓取規(guī)則,自動獲取�(wǎng)頁內(nèi)�,自動按照自身網(wǎng)站系�(tǒng)的數(shù)�(jù)�(jié)�(gòu)抽取�(shù)�(jù),并�(fā)布到�(wǎng)站系�(tǒng)�,讓您不花絲毫心血和金錢,就可以使您的�(wǎng)站一夜之間網(wǎng)羅天��
信息搜索
由于各種用戶群體的網(wǎng)絡連接,使得互�(lián)�(wǎng)成為一個包羅萬象的信息�,商�(yè)的、學�(shù)�、個體的等等信息都可以在互�(lián)�(wǎng)上發(fā)布和獲取,因�,企�(yè)可以通過互聯(lián)�(wǎng)獲取客戶資源、市場行情、商�(yè)信息�。但在這茫茫的信息大海,我們常常缺少一種工具來�(fā)�(xiàn)我們所�(guān)心的�(nèi)容,并有效的組織和儲備它�,使之成為企�(yè)的內(nèi)部資�。信息采集系�(tǒng)可以根據(jù)�(shù)�(jù)模式,自動通過搜索引擎檢索�(shù)�(jù),將匹配的信息顯示在您的桌面上�
資料錄入
企業(yè)管理系統(tǒng),企�(yè)信息管理系統(tǒng)、客戶服務系�(tǒng)等各種信息處理系�(tǒng),它們只能處理結(jié)�(gòu)化的�(shù)�(jù),如學生信息包括用戶�、性別、年齡等屬性,它們必須保存在預定義的�(jié)�(gòu)�。但系統(tǒng)外界會有大量的非�(jié)�(gòu)化數(shù)�(jù),如客戶提交的材料、公司內(nèi)部文檔等。而這些�(shù)�(jù)通常是人工統(tǒng)計和人工輸入各類信息處理系統(tǒng)�。信息采集系�(tǒng)它能將一篇文檔按信息系統(tǒng)的數(shù)�(jù)�(jié)�(gòu)自動抽取成多個字�,并自動將這些字段導入到企�(yè)的各類信息處理系�(tǒng)中�
�(wǎng)站管理員
系統(tǒng)的最終用戶群包含�(wǎng)站的管理員�,對一些給目標地址做了隱藏的網(wǎng)�,可能會使他們操作失�,特別有些網(wǎng)站對�(wǎng)頁內(nèi)容作了擾亂處�,使得他們更難準確地定義�(guī)�。對于這些問題,系�(tǒng)提供一些范例和匹配通配符,告訴他們的應對方法。并且官方網(wǎng)站提供交流論�,共享和學習相互之間的經(jīng)驗�
信息采集用戶
對于信息采集的用�,系�(tǒng)提供豐富的模板模式供用戶使用,如email匹配模式、電話號碼匹配模式等,只需要用戶選擇一個模�,就可以獲得他們想要的信息。當然官方網(wǎng)站提供豐富模板資源供以下��
�(shù)�(jù)�(jié)�(gòu)化用�
對于�(shù)�(jù)�(jié)�(gòu)化的應用,會有第三方的技�(shù)人員提供支持�
系統(tǒng)預留了輸入輸出的編程接口,一些用戶擴展這些接口,使系統(tǒng)應用到更多的場合下。針對這些用戶,系�(tǒng)提供詳細的接口說�,擴展示例代�。我們提供開�(fā)�,并描述每個類和每個方法的使用方法和功能�
還有一類用戶屬于商人的范疇,他們僅從事�(guī)則的制作,在�(wǎng)上交換或出售自己的規(guī)則。他們更�(guān)心網(wǎng)站的搜索和內(nèi)容的�(zhì)�,他們分兩種類型,一種是獵人,他們能夠發(fā)�(xiàn)各種各樣的信�,能夠滿足各類網(wǎng)管的�(nèi)容需�,他們從�(shù)量上獲取大把金錢。當然,對于個別稀有的�(nèi)�,價格就像黃金一樣了。另一種屬于黑�,他們精通web技�(shù),機智并�(zhí)�,在他們手�,都是一些很難發(fā)掘到的精�,當然價格都是高昂的�
由于采集系統(tǒng)屬于開放式軟�,會有很多人去分析和使用采集系統(tǒng)中的組件,擴展和完善采集系統(tǒng)。他們使用的級別不僅是系�(tǒng)的界面上,而是深入到代碼的�(nèi)部上,他們需要參考采集系�(tǒng)的各類技�(shù)文檔,所以系�(tǒng)除了用戶手冊,其它的開發(fā)文檔也是必不可少��
I/O體系
系統(tǒng)使用�(tǒng)一的輸入輸出接口對各類外部目標進行讀取和�(fā)布數(shù)�(jù)。透明的支持現(xiàn)在和未來各類外部系統(tǒng)的交互要求�
容器體系
容器管理體系,使系統(tǒng)運行更加高效,并且提供更高的用戶交互能力。特性如下:
1.控制過濾器的并發(fā)�(shù),適應不同的目標限制�
2.過濾器的狀�(tài)報告,時刻了解內(nèi)容的采集過程�
3.采用復用和調(diào)度策�,并�(fā)更加高效�
緩存體系
緩存區(qū)為輸出子系統(tǒng)提供全局的數(shù)�(jù)索引,使輸出子系�(tǒng)具備以下幾種能力�
1.可以在全局范圍�(nèi)對數(shù)�(jù)進行校驗和再加工�
2.可以跨層次地�(guān)�(lián)單元�(shù)�(jù),發(fā)布采集的中間�(shù)�(jù)�
插件體系
采集系統(tǒng)支持豐富的插件類型,插件管理器負責加載插件和索引插件。插件分以下幾種類型�
輸入插件、輸出插件和過濾器插�,功能如下:
1.輸入插件支持不同的外部對象讀取。如http服務�、ftp服務�、文件系�(tǒng)��
2.采集插件支持不同的數(shù)�(jù)格式采集以及特殊的信息采�。如�(wǎng)頁采�、word采集、電子郵件地址采集��
3.輸出插件支持各類系統(tǒng)的發(fā)布,如bbs系統(tǒng)、信息系�(tǒng)等�
�(jié)�(gòu)化采�
系統(tǒng)對半�(jié)�(gòu)化數(shù)�(jù)進行語義分析,根�(jù)語義�(guī)則智能提取數(shù)�(jù)�
可視化元�(shù)�(jù)定義
用戶在可視化的目標界面上指定所要采集的�(nèi)��
插件支持
系統(tǒng)擁有豐富的插件功�,支持各類目標的采集和各類系�(tǒng)的發(fā)布。如ftp采集,http采集以及�(shù)�(jù)庫發(fā)�,文件發(fā)��
客戶端環(huán)境模�
模擬客戶端環(huán)�,支持客戶端和服務器端的基本會話功能。如瀏覽器的session機制、cookie機制。支持用戶登��
多線程采�
系統(tǒng)多任務并�(fā),多線程采集。支持線程的并發(fā)控制和狀�(tài)�(jiān)��
全局�(fā)�
系統(tǒng)提供上下文關(guān)�(lián)的全局緩存區(qū),發(fā)布模塊可以聯(lián)合不同層次的單元�(shù)�(jù)。用戶可以檢查和編輯緩存區(qū)中的單元�(shù)�(jù)�
分頁采集
根據(jù)頁碼�(guī)則,自動采集�(nèi)容的下一��
�(guān)�(lián)文件下載
系統(tǒng)可以根據(jù)設置自動下載頁面包含的其它文�。如flash、圖片等�
�(guī)則保�
采集對象、過濾規(guī)�、發(fā)布目標等信息保存在規(guī)則文件里,用戶可以導入導出規(guī)則文件,與它人共享或交換�(guī)則文�。系�(tǒng)提供友好的向?qū)ы撁婀┯脩襞渲�?guī)則文��
模板修飾
可以按預定義的模板結(jié)�(gòu)�(fā)布數(shù)�(jù)�
�(jié)果過�、替�
自動過濾�(shù)�(jù)的格式及語法,如過濾html語言,word格式�。支持常量替換和�(huán)境變量替��
重復過濾
自動刪除采集�(jié)果中的重復數(shù)�(jù)�
維庫電子通,電子知識,一查百��
已收錄詞�168962�