說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732
全網(wǎng)監(jiān)測(cè)海量數(shù)據(jù)按需發(fā)布監(jiān)測(cè)預(yù)警
實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭
首先,我們?cè)诮⑿袠I(yè)詞庫(kù)之前想一想:為什么要建立行業(yè)詞庫(kù)?
從搜索引擎本質(zhì)上思考,不管是當(dāng)今的百度、谷歌、雅虎等等,說白了都是做的關(guān)鍵詞搜索,關(guān)鍵詞是網(wǎng)站內(nèi)容的通道。一個(gè)網(wǎng)站應(yīng)用好的關(guān)鍵詞,如同建立了強(qiáng)有力的引流通道,在后期的建設(shè)過程中使得流量吸引的能力越來越強(qiáng)。
那么,如何建立行業(yè)詞庫(kù)?
這里,我拿到了一份8000萬數(shù)據(jù)量的游戲行業(yè)詞庫(kù),需要整理。整理流程分別為:去重、去噪、篩選、篩選敏感詞反復(fù)去噪、規(guī)整、去重、產(chǎn)品劃分、產(chǎn)品屬性維度細(xì)分。
1 去重
8000萬的數(shù)據(jù)量,去重濃縮到了1500萬數(shù)據(jù),將近20%。這個(gè)數(shù)據(jù),我次看到并不吃驚,大量的網(wǎng)站,在整個(gè)行業(yè)中布局的詞有很多詞重復(fù)特別是主體頁(yè)面上爭(zhēng)的是那些高流量的詞,很正常。
2 去噪
初步去噪,識(shí)別ip段等數(shù)據(jù)直接刪掉,一些特殊符號(hào)直接替換。
3 篩選
根據(jù)游戲詞庫(kù)將1500萬詞庫(kù)一份為2,得到1200萬詞庫(kù)和300萬頁(yè)游詞庫(kù)。游戲部領(lǐng)導(dǎo)的意思是,先從度高的300萬詞庫(kù)入手,先反復(fù)去噪,用短的時(shí)間先把這個(gè)庫(kù)用起來。
4 篩選敏感詞反復(fù)去噪
其實(shí),花時(shí)間的過程是這一步,需要你每天做一件事,從中找敏感詞,游戲行業(yè)敏感詞有哪些。比較短的詞風(fēng)險(xiǎn)比較大要慎重,長(zhǎng)的詞相對(duì)風(fēng)險(xiǎn)較小。詞根是品牌的詞相對(duì)來說直接過了,不是我們要找的詞。舉個(gè)case,“三國(guó)演義趙云”和”三國(guó)無雙頁(yè)游”,兩個(gè)詞的詞根都是三國(guó),其實(shí)你認(rèn)為“三國(guó)演義趙云”需要?jiǎng)h除,的確它跟頁(yè)游無關(guān),但它跟三國(guó)有關(guān),這種詞可以引流,它定位是吸引潛在的游戲用戶群體。但如果詞根是一個(gè)形容詞,這種詞可以和各種詞組合,這種詞引流的意義不大了,因?yàn)楹x相關(guān)度太差,信息匹配度非常的低,可以直接刪了或者找出敏感詞,進(jìn)行過濾。
去噪,既是一件簡(jiǎn)單事,也是一件體力活,但是不同的人為什么效率不一樣,自然再簡(jiǎn)單的事情也有其精髓所在。
5 規(guī)整
詞庫(kù)篩選的過程中,你會(huì)發(fā)現(xiàn)游戲詞很多有一些臟的詞比如后綴加了三個(gè)零等等,需要整體規(guī)整這些數(shù)據(jù),保證數(shù)據(jù)的準(zhǔn)確性。
6 再次去重
規(guī)整以后的數(shù)據(jù),詞庫(kù)中會(huì)有大量的重復(fù),需要二次去重。300萬詞庫(kù)濃縮到->120萬,1200萬詞庫(kù)濃縮到->750萬。
7 產(chǎn)品劃分
將300萬的詞庫(kù)按產(chǎn)品劃分,這里主要分為三大類:頁(yè)游、平臺(tái)、其他。為什么這樣劃分?首先,300萬的詞庫(kù)的詞根都是屬于頁(yè)游品牌或平臺(tái)商或其他類別。300萬經(jīng)過去噪后的數(shù)據(jù)可以再次根據(jù)這3份標(biāo)準(zhǔn)庫(kù)進(jìn)行分類。分類的過程中,有一個(gè)注意點(diǎn):26.5g熱血海賊王,既要出現(xiàn)在頁(yè)游庫(kù)的“熱血海賊王”文件中,同時(shí)也應(yīng)當(dāng)在平臺(tái)庫(kù)的文件名為”26.5g“的文件中出現(xiàn)。
8 產(chǎn)品屬性維度細(xì)分
從第7步,我們已經(jīng)得到了分類詞庫(kù)的文件,每個(gè)產(chǎn)品生成頁(yè)面首先都要一定的維度,我這邊主要是按照:攻略、裝備、禮包、輔助、開服表。
這些維度也是后期我們要采集文章的維度。120萬詞庫(kù)雖然體量很大,但是實(shí)際發(fā)現(xiàn)這些維度分下來,還有數(shù)據(jù)缺口,后期可能還要臨時(shí)采集這些數(shù)據(jù),去彌補(bǔ)。
頁(yè)游行業(yè)詞庫(kù)建設(shè),幫助我們后期生成大量的文章頁(yè)面,通過強(qiáng)有力的內(nèi)鏈架構(gòu),一方面增大網(wǎng)站的體量,增大收錄規(guī)模,將產(chǎn)品聚合頁(yè)、產(chǎn)品頁(yè)撐起來,同時(shí)通過詞庫(kù)的建設(shè)進(jìn)而計(jì)算詞與詞的關(guān)系進(jìn)而利用程序生成大量的tag頁(yè)面,將文章頁(yè)面撐起來,這樣的網(wǎng)站架構(gòu)站內(nèi)資源極其豐富,如果增加一定的站外資源,根據(jù)排名=內(nèi)部因素+外部因素,網(wǎng)站的整體排名會(huì)。點(diǎn)擊率=排名*文案,文案優(yōu)化好,點(diǎn)擊率會(huì)高。有了排名有了點(diǎn)擊率,流量會(huì)ok。由此可見,我們先做行業(yè)詞庫(kù)而不是直接寫文章發(fā)外鏈,是在苦心孤詣地磨刀,老話說得好:磨刀不誤砍柴工,刀磨好了,砍柴活何止事半功倍,更何況這活還是在seo界!
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732