亚洲欧美国产97综合首页,久久丝袜精品综合网站,精品国产电影久久九九,国产一区二区免费精品

  • <small id="kosyt"><tbody id="kosyt"><small id="kosyt"></small></tbody></small>

          <td id="kosyt"><ins id="kosyt"><label id="kosyt"></label></ins></td>
        1. <source id="kosyt"><ins id="kosyt"></ins></source>
               登錄    注冊(cè)
            

          基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH實(shí)戰(zhàn)開發(fā)從無(wú)到有垂直搜索引擎

          • 贊助費(fèi):¥616元   在線客服:有事聯(lián)系我哦     點(diǎn)擊這里給我發(fā)消息    itying微信客服    交流群:it營(yíng)
          • 適合人群: 初-中級(jí)
          • 課時(shí)數(shù)量: 69課時(shí)
          • 更新程度: 完成
          • 主要技術(shù): Hibernate、Struts
          • 用到技術(shù): Hibernate、Struts、Spring、jQuery、Lucene、Solr、Heritrix
          • 涉及項(xiàng)目: 百度文庫(kù)搜索引擎
          • 瀏覽次數(shù): 1842 次     付款后在訂單列表獲取下載地址

          瀏覽歷史

          課程描述

          相關(guān)課程

          還購(gòu)買過

          課程的價(jià)值分析

          大數(shù)據(jù)對(duì)搜索的價(jià)值(搜索引擎的大數(shù)據(jù)時(shí)代)

          ?   

          最有前途的軟件開發(fā)技術(shù)——搜索引擎技術(shù) 

          搜索引擎作為互聯(lián)網(wǎng)發(fā)展中至關(guān)重要的一種應(yīng)用,已經(jīng)成為互聯(lián)網(wǎng)各個(gè)領(lǐng)域的制高點(diǎn),其重要性不言而喻。搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應(yīng)用中不多見的以核心技術(shù)作為其命脈的領(lǐng)域,搜索引擎各個(gè)子系統(tǒng)是如何設(shè)計(jì)的?這成為廣大技術(shù)人員和搜索引擎優(yōu)化人員密切關(guān)注的內(nèi)容。

           

          隨著互聯(lián)網(wǎng)行業(yè)興起,大數(shù)據(jù)時(shí)代的到來(lái),搜索引擎開發(fā)成為一項(xiàng)極富含金量的工作,市場(chǎng)對(duì)搜索軟件開發(fā)工程師的需求極其旺盛。大型搜索門戶需要大量專門的搜索軟件開發(fā)人才,而眾多中小型網(wǎng)站及企業(yè)也需要垂直搜索,網(wǎng)站搜索,全文檢索,知識(shí)庫(kù)系統(tǒng)等非結(jié)構(gòu)化數(shù)據(jù)開發(fā)軟件工程師

           

          在互聯(lián)網(wǎng)上說(shuō)門檻,就是比資源。垂直搜索也是這樣,能否提供全面權(quán)威的行業(yè)信息,能否擁有行業(yè)資源是垂直搜索引擎發(fā)展的門檻。換句化說(shuō),垂直門戶是垂直搜索血統(tǒng)最近的父親。作為房產(chǎn)行業(yè)的搜房網(wǎng)就是一個(gè)垂直門戶,在房產(chǎn)領(lǐng)域沒有誰(shuí)比我們更清楚什么是垂直搜索了

           

          未來(lái)5年中,我們見到的最大變化將是人們使用電腦的方式將有所不同,移動(dòng)電話將變成在互聯(lián)網(wǎng)上尋找信息的最常見手段。到那時(shí),大多數(shù)問題都最好通過聲音進(jìn)行問答。搜索引擎公司將成為日常生活中更不可或缺的部分,它們的影響力最終將對(duì)其他一些為創(chuàng)造或傳播信息而存在的公司會(huì)產(chǎn)生極大的促進(jìn)甚至替代性的作用。

           

          網(wǎng)絡(luò)時(shí)代的信息量每8個(gè)月翻一番,如今的網(wǎng)頁(yè)以100億來(lái)計(jì)算;網(wǎng)絡(luò)搜索已成為僅次于電子郵件的第二大網(wǎng)絡(luò)應(yīng)用。2005年中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告中也指出,用戶在互聯(lián)網(wǎng)上獲取信息最常用的方法中,通過搜索引擎查找相關(guān)的網(wǎng)站占58.2%。對(duì)于有效的搜索引擎技術(shù)的研究將具有巨大的學(xué)術(shù)及商業(yè)價(jià)值。

           

             

           

          ?

           

             

           

             

           

          垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。垂直搜索是相對(duì)通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來(lái)的新的搜索引擎服務(wù)模式,通過針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無(wú)序化,垂直搜索引擎則顯得更加專注、具體和深入。

           

          垂直搜索引擎原理圖

           

          什么是垂直搜索引擎 最有前途的軟件開發(fā)技術(shù)搜索引擎技術(shù) 開源爬蟲: Heritrix 1.14.4 安裝/使用
           

           

          1、整體思路

          整個(gè)課程,按照一個(gè)從無(wú)到有的過程來(lái)展開。所有的數(shù)據(jù),來(lái)自于互聯(lián)網(wǎng),用heritrix去抓取。對(duì)于抓取的數(shù)據(jù),進(jìn)行去重,去標(biāo)簽,然后利用lucene 和 solr 進(jìn)行索引和搜索。如下圖所示:

           

           

          整個(gè)課程 的最大特點(diǎn)是內(nèi)容新穎全面而又通俗易懂。對(duì)于實(shí)際搜索引擎所涉及的各種核心技術(shù)都有全面細(xì)致的介紹,除了作為搜索系統(tǒng)核心的網(wǎng)絡(luò)爬蟲、索引系統(tǒng)、排序系統(tǒng)、鏈接分析及用戶分析外,還包括網(wǎng)頁(yè)反作弊、緩存管理、網(wǎng)頁(yè)去重技術(shù)等實(shí)際搜索引擎必須關(guān)注的技術(shù),同時(shí)用相當(dāng)大的篇幅講解了云計(jì)算與云存儲(chǔ)的核心技術(shù)原理及實(shí)現(xiàn)。

           

          整個(gè)課程的另一亮點(diǎn)是:整個(gè)項(xiàng)目的構(gòu)建全部采用最新技術(shù),包括但不限于以下技術(shù):struts 2.3.16 +spring 4.0.1 +hibernate 4.3.1+jquery-easyui 1.3.5+lucene 4.6.0+solr 4.6.0+Heritrix1.14并對(duì)其做了二次封裝。為了增進(jìn)學(xué)員的理解,課程大量引入形象的圖片來(lái)講解算法原理,相信讀者會(huì)發(fā)現(xiàn)原來(lái)搜索引擎的核心技術(shù)理解起來(lái)比原先想象的要簡(jiǎn)單得多。

           

           

           

          一、理論部分:

           

          2.1、搭建heritrix

          1.什么是網(wǎng)絡(luò)爬蟲

          2.網(wǎng)絡(luò)爬蟲能做什么

          3.Heritrix原理

          4.Heritrix搭建

           

          2.2、如何進(jìn)行主題抓取

          1.什么是主題抓取

          2.主題抓取的意義

          3.主題抓取的策略

          4.如何用heritrix進(jìn)行主題抓取

           

          2.3、heritrix優(yōu)化

          1. ELFHash算法

          2.關(guān)于robot.txt

          3.將heritrix打包成工具

           

          2.4、解析html頁(yè)面

          1.java正則表達(dá)式

          2.基于模板獲取網(wǎng)頁(yè)內(nèi)容

          3.利用htmlparser解析html

           

          2.5、中文分詞介紹

          1.Lucene自帶的分詞

          2.ICTCLAS

          3.IK

          4.利用機(jī)器學(xué)習(xí)的算法識(shí)別中文文章中的領(lǐng)域詞

           

          2.6、網(wǎng)頁(yè)去重

          1.網(wǎng)頁(yè)去重的意義

          2.網(wǎng)頁(yè)去重的主要方法

          3.什么是tf*idf

          4.基于指紋算法的網(wǎng)頁(yè)去重

           

          2.7、Lucene4.6快速索引與搜索

          1.如何用lucene創(chuàng)建索引

          2.如何用lucene搜索結(jié)果

          3.Lucene中intfield怎么搜索

          4.Lucene的結(jié)果高亮顯示

           

          2.8、Lucene4.6索引的相關(guān)操作

          1.創(chuàng)建索引

          2.修改索引

          3.刪除索引

          4.索引優(yōu)化

           

          2.9、Lucene4.6的query、及queryparser

          1.TermQuery 

          2.BooleanQuery

          3.TermRangeQuery

          4.NumericRangeQuery

          5.PrefixQuery

          6.PhraseQuery

          7.MultiPhraseQuery

          8.FuzzyQuery

          9.WildcardQuery

          10.queryparser

           

          2.10、Lucene的Filter及自定義排序

          1.Filter

          2.Lucene自帶排序及指定權(quán)重

          3.Lucene自定義排序

           

          2.11、Solr快速索引與搜索

          1.什么是solr

          2.為什么工程中要使用solr

          3.Solr的原理

          4.如何在tomcat中運(yùn)行solr

          5.如何利用solr進(jìn)行索引與搜索

           

          2.12、Solr的查詢及Filter

          1.solr的各種查詢

          2.solr的Filter

          3.solr的排序

          4.solr的高亮

           

          2.13、Solr的facet介紹

          1.solr的某個(gè)域統(tǒng)計(jì)

          2.solr的范圍統(tǒng)計(jì)

           

          2.14、Solrcloud集群搭建

          1.zookeeper簡(jiǎn)介

          2.solrcloud集群搭建

           

          2.15、搜索服務(wù)的工具封裝

          1.工廠模式

          2.封裝搜索服務(wù)_lucene

          3.封裝搜索服務(wù)_solr

          4.將lucene與solr封裝成可以配置的工具,可以支持任何業(yè)務(wù)系統(tǒng)

           

           

          二、項(xiàng)目部分:

           

          2.16、項(xiàng)目實(shí)戰(zhàn)

          1.項(xiàng)目需求分析及框架選擇

          2.Struts 2.3.16介紹

          3.Struts 2.3.16整合Spring 4.0.1

          4.Spring 4.0.1整合hibernate 4.3.1

          5.利用jquery-easyui 1.3.5 做后臺(tái)管理頁(yè)面

          6.Heritrix 在工程中的運(yùn)用

          7.封裝好的搜索框架在工程中的運(yùn)用

          8.Flexpaper模仿百度文庫(kù)

          9.文件上傳

          10.相關(guān)代碼編寫

          11.搜索結(jié)果優(yōu)化

          12.項(xiàng)目總結(jié)

           

           

           

          本課程適合于各個(gè)層次的有志于從事搜索引擎技術(shù)的Java開發(fā)人員,只要求開發(fā)人員具備基礎(chǔ)的JAVA基礎(chǔ)及B/S開發(fā)經(jīng)驗(yàn)即可,對(duì)于初級(jí)程序員來(lái)說(shuō),可以在短時(shí)間內(nèi)迅速提高開發(fā)能力,掌握流行的技術(shù),把握搜索引擎技術(shù)的發(fā)展脈絡(luò)。對(duì)于中高級(jí)程序員來(lái)說(shuō),本課程可以在短時(shí)間內(nèi)快速提升個(gè)人的搜索引擎方面的開發(fā)能力。

           

           

          1 想要從事搜索引擎開發(fā)的Java技術(shù)人員

           

          2 學(xué)習(xí)該課程你可以快速掌握到網(wǎng)絡(luò)爬蟲、中文分詞、網(wǎng)頁(yè)去重、搜索優(yōu)化、大數(shù)據(jù)處理等多方面的技能

           

          3 加強(qiáng)開發(fā)的內(nèi)功修煉。

           

          4 深入理解搜索引擎的原理與相關(guān)開發(fā)技術(shù)

           

          5 掌握搜索引擎開發(fā)技術(shù)點(diǎn),能夠獨(dú)立開發(fā)基于lucene技術(shù)的搜索系統(tǒng)

           

           

          亮點(diǎn)一、對(duì)heritrix進(jìn)一步封裝,可以按照需求配置,單獨(dú)運(yùn)行。

           

          亮點(diǎn)二、對(duì)lucene 4.6.0與solr 4.6.0進(jìn)行封裝,通過配置就可以對(duì)絕大多數(shù)的業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)庫(kù)及其文件的索引、搜索。

           

          亮點(diǎn)三、對(duì)目前最新的ssh(struts 2.3.16 spring 4.0.1 hibernate 4.3.1)整合,并結(jié)合目前最新的版本的jquery-easyui 1.3.5,構(gòu)建了一個(gè)完整的垂直搜索引擎。

           

          亮點(diǎn)四、整個(gè)課程的理論部分,參看了大量的核心期刊論文,并針對(duì)目前中文分詞,用純java代碼實(shí)現(xiàn)了一種基于無(wú)監(jiān)督的識(shí)別方法。另外,實(shí)現(xiàn)了文本的特征抽取TF*IDF算法,最小編輯距離算法,文本相似度算法(傳統(tǒng)的夾角余弦及指紋算法)。

           

           

           

          掌握此項(xiàng)技術(shù)后可以從事但不限于以下職位的工作:

          高級(jí)搜索引擎開發(fā)工程師

          行業(yè)(垂直)搜索引擎開發(fā)工程師

          搜索引擎后臺(tái)開發(fā)工程師

          搜索引擎Web開發(fā)工程師

          網(wǎng)絡(luò)爬蟲開發(fā)工程師

           

          IT營(yíng)(itying.com)官網(wǎng)轉(zhuǎn)載的文章、圖片等資料的版權(quán)歸版權(quán)所有人所有,因無(wú)法和版權(quán)所有者一一聯(lián)系,如果本網(wǎng)站選取的文/圖威脅到您的權(quán)益,請(qǐng)您及時(shí)和IT營(yíng)站長(zhǎng)聯(lián)系。
          我們會(huì)在第一時(shí)間內(nèi)采取措施,避免給雙方造 成不必要的損失。IT營(yíng)(itying.com)官網(wǎng)商品均為虛擬商品,因發(fā)貨后無(wú)法收回,故購(gòu)買后不支持退款,請(qǐng)悉知。有問題可以聯(lián)系客服咨詢(客服上班時(shí)間:8:00-21:30)。

          在線客服:點(diǎn)擊這里給我發(fā)消息      點(diǎn)擊這里給我發(fā)消息      有事聯(lián)系我哦   

          公安備案:鄂公網(wǎng)安備 42050202000392號(hào)  ICP備案證書號(hào):鄂ICP備17020565號(hào)-1