十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
創(chuàng)新互聯(lián)建站導(dǎo)讀:百度搜索真正的提取工作要復(fù)雜得多,大家可以通過本文做個(gè)大概的了解。了解百度搜索提取頁面內(nèi)容的原理和過程,對于提升頁面質(zhì)量度有很大的幫助,比如把頁面做成漂亮的圖片,但只有很少的文本內(nèi)容,這就不行!本文還可以幫助大家理解外鏈、投票等。
成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì),成都做網(wǎng)站公司-創(chuàng)新互聯(lián)公司已向1000多家企業(yè)提供了,網(wǎng)站設(shè)計(jì),網(wǎng)站制作,網(wǎng)絡(luò)營銷等服務(wù)!設(shè)計(jì)與技術(shù)結(jié)合,多年網(wǎng)站推廣經(jīng)驗(yàn),合理的價(jià)格為您打造企業(yè)品質(zhì)網(wǎng)站。
我們都知道搜索引擎會爬行和提取頁面內(nèi)容,但是到底是怎么提取內(nèi)容的呢,本文創(chuàng)新互聯(lián)就通過案例簡單的給大家解釋下。如果你不知道搜索引擎是怎么提取內(nèi)容的,看完本文相信就基本清楚了。
上面這個(gè)是頁面源代碼內(nèi)容,可以看到有很多的內(nèi)容,包括了英文字母和漢字文本。
這是前端,這里沒有加更多的css樣式,通常頁面里面都會有很多的樣式的,前端顯示也會更好看。
那么對于這個(gè)頁面,百度搜索是怎么提取內(nèi)容的呢?簡單說有以下幾個(gè)部分:
1、頁面標(biāo)題:水煮魚的做法。
注意這里又會進(jìn)行中文分詞,會分成“水煮魚”“做法”“水煮魚做法”,分詞和組合。
2、正文內(nèi)容。百度搜索只提取有意義的詞,過濾沒有意義的詞。
有意義的詞:魚/魚肉片/魚片/鹽/淀粉/大蒜/干辣椒/姜/鍋/油/姜/蒜/紅辣椒/火鍋底料/水/黃豆芽/蔬菜/魚片,可以看到,這些提取的詞基本都是名詞。
無意義的詞:比如首先/下來/和/然后/最后/即可等等這些。
輔助性的詞:比如處理/干凈/抓勻/切末/燒熱/燒開/自己喜歡/腌制好等等。
可以看到,有意義的詞是必不可少的,少了這些詞頁面內(nèi)容就不完整了。但無意義的詞去掉以后并不會改變頁面內(nèi)容,而輔助性的詞則是幫助用戶更好閱讀。在通過指紋計(jì)算相關(guān)性的時(shí)候,主要是參考和計(jì)算有意義的詞。
上面內(nèi)容出現(xiàn)頻率高的詞是:魚、魚片,它們的權(quán)重會更高,其他的詞重要性會根據(jù)頻率降低。
3、鏈接:魚肉片,搜索引擎會把這個(gè)URL收集并返回到鏈接數(shù)據(jù)庫,同時(shí)記錄下這個(gè)錨文本并且計(jì)算相應(yīng)的權(quán)重值。
以上就是百度搜索提取頁面內(nèi)容的簡單過程和內(nèi)容,這里大家可以拓展下,思考下文章內(nèi)容的原創(chuàng)度。
百度搜索提取內(nèi)容以后,會進(jìn)行指紋處理,如果兩篇文章的指紋特征高度相同,就能基本判斷后面收錄的內(nèi)容是采集的,或者是簡單偽原創(chuàng)的。所以,大家在編輯偽原創(chuàng)文章的時(shí)候,就不能只是簡單的段落調(diào)換,或者簡單的加些鏈接詞、語氣詞,這些都不足以提升原創(chuàng)度。
當(dāng)然,百度搜索真正的提取工作要復(fù)雜得多,大家可以通過本文做個(gè)大概的了解。了解百度搜索提取頁面內(nèi)容的原理和過程,對于提升頁面質(zhì)量度有很大的幫助,比如把頁面做成漂亮的圖片,但只有很少的文本內(nèi)容,這就不行!本文還可以幫助大家理解外鏈、投票等,這里不展開細(xì)說。