1 ? ?選取詞庫(kù)競(jìng)爭(zhēng)對(duì)手->準(zhǔn)備階段:選擇基礎(chǔ)的根詞和相關(guān)的長(zhǎng)尾詞
1.1 ? ?專業(yè)的
seo分類站點(diǎn)上找;導(dǎo)航站上去批量找到;如果實(shí)在無(wú)資源的情況下可手動(dòng)補(bǔ)充。目標(biāo)是盡量涵蓋行業(yè)內(nèi)的所有站點(diǎn)。
1.2 ? ?自有的抓取數(shù)據(jù)庫(kù)里找到行業(yè)根詞
1.3 ? ?行業(yè)競(jìng)爭(zhēng)對(duì)手的網(wǎng)站地圖中找到行業(yè)根詞
1.4 ? ?手上擁有的資源站點(diǎn)中找到搜索流量的搜索詞(百度統(tǒng)計(jì)、GA統(tǒng)計(jì)等統(tǒng)計(jì)工具)
1.5 ? ?有資源的話,請(qǐng)花錢(qián)向?qū)I(yè)的整合公司購(gòu)買行業(yè)關(guān)鍵詞數(shù)據(jù)庫(kù)
1.2批注 ? ?如果先期已經(jīng)有網(wǎng)站了,請(qǐng)從自己站點(diǎn)的維度出發(fā)尋找,其中一定有讓底層的根詞庫(kù)
建議:
處理人員:助理
相關(guān)技能:火車頭或相關(guān)的采集工具
耗時(shí)估計(jì):1-2天
大部分情況下我們不是1.5的土豪,花個(gè)萬(wàn)把塊買整合好的數(shù)據(jù),所以接著1.1-1.4如下處理
2 ? ?再次拓詞->將較為完整的1中的詞拿出來(lái)再做拓展,力求涵蓋整個(gè)行業(yè)的關(guān)鍵詞數(shù)據(jù)庫(kù)
2.1 ? ?將1.1中的站點(diǎn)分類,選出和你將要做的站點(diǎn)屬性相同的站
2.1.1 ? ?采集這些站點(diǎn)下的關(guān)鍵詞庫(kù),可采用:愛(ài)站關(guān)鍵詞挖掘工具(非付費(fèi)導(dǎo)出量有限,量級(jí)較少,噪點(diǎn)較少),5118數(shù)據(jù)庫(kù)(可采用火車頭采集,利用2次抓取的邏輯可采集到量級(jí)很大的詞,但噪點(diǎn)過(guò)多,很多100名開(kāi)外的無(wú)用詞);
2.2 ? ?將1.2,1.3,1.4,2.1中的詞放入關(guān)鍵詞拓展工具中進(jìn)行拓展
2.2.1 ? ?根詞的拓展量可以在6K左右;已經(jīng)較長(zhǎng)尾的拓展量可以再600左右,請(qǐng)自適應(yīng)安排
2.3 ? ?將所有的詞整理,先初步去重(包含兩步,重復(fù)項(xiàng)和某些特定詞;建議程序)
2.1批注 ? ?以游戲站點(diǎn)為例,分類成:網(wǎng)游;頁(yè)游;手游;小游戲;綜合等,找出你要做的站點(diǎn)的屬性,將其記錄下來(lái)。
2.1批注 ? ?綜合類的站點(diǎn),比如sina.com.cn,用愛(ài)站或5118找到其屬性和你相同的站,假使你要做頁(yè)游,看看有沒(méi)有web.sina.com.cn等站點(diǎn),快速找到提取
2.1.1批注 ? ?要資源購(gòu)買付費(fèi)版的買付費(fèi)版,能很大程度上節(jié)省時(shí)間,別老想著免費(fèi);
2.1.1批注 ? ?5118數(shù)據(jù)庫(kù)用火車頭可以批量抓取,量級(jí)大的話需要時(shí)間,請(qǐng)預(yù)估好;采集的方式,先通配采集每個(gè)域名/subdomains/下的翻頁(yè)數(shù),再批量寫(xiě)規(guī)則通配采集/baidu/rank/下的關(guān)鍵詞,這樣做是因?yàn)槊總€(gè)域名的排名頁(yè)數(shù)不同
2.2批注 ? ?愛(ài)站的拓長(zhǎng)尾詞能力好一些,短詞(既行業(yè)根詞)可用愛(ài)站跑;中短詞長(zhǎng)度(判斷標(biāo)準(zhǔn),excel函數(shù)=len(*)在4-9左右)可用戰(zhàn)神工具跑;中長(zhǎng)詞(=len(*)在9-18左右)也可用戰(zhàn)神工具跑;長(zhǎng)詞(=len(*)在18-29左右)感覺(jué)可以該刪的刪掉,不用跑了
由于去重出來(lái)的重復(fù)量過(guò)大,有千萬(wàn)級(jí)別的,所以必須過(guò)濾,分機(jī)器和人工同時(shí)進(jìn)行處理
3 ? ?處理關(guān)鍵詞
3.1 ? ?機(jī)器初過(guò)濾 – 處理噪詞;去重
3.1.1 ? ?直接匹配刪 ,比如:#,$,http,-,..,.com,.xml等等,根據(jù)自己的行業(yè)特性進(jìn)行篩選,包含的直接刪
3.1.2 ? ?替換,主要是轉(zhuǎn)義的和空格,比如:?,",&
3.1.3 ? ?全數(shù)字刪除,根據(jù)行業(yè)情況處理
3.1.4 ? ?以上剩余的詞庫(kù)做去重
3.2 ? ?機(jī)器初篩選 – 提取精準(zhǔn)詞
3.1.1 ? ?再處理下根詞,把根詞中的噪詞處理一下,比如()里面的內(nèi)容等,幫助接下來(lái)機(jī)器提取的精準(zhǔn)度
3.1.2 ? ?用行業(yè)詞庫(kù)和根詞去匹配所有的詞,整理出一份文檔,打包。這部分是精準(zhǔn)的詞。
3.3 ? ?人力去臟詞
3.3.1 ? ?軟件工具 :notepad++;office excel 2010以上的版本(WPS不行);?關(guān)鍵詞自動(dòng)分類工具
3.3.2 ? ?步驟
3.3.2.1 ? ?用notepad++打開(kāi)文檔,將所有詞復(fù)制到分類工具中
3.3.2.2 ? ?點(diǎn)擊分類工具中的開(kāi)始查詢
3.3.2.3 ? ?等待,等到右邊跳出終的結(jié)果(過(guò)程可能持續(xù)5-15分鐘不等,不用理睬未響應(yīng)),期間可以同步進(jìn)行其他事情
3.3.2.4 ? ?復(fù)制分詞中的結(jié)果到notepad++,再到xls表格中(點(diǎn)擊結(jié)果,ctrl+a,因?yàn)闆](méi)有明顯的標(biāo)識(shí),等待全部變藍(lán),期間可能有幾次未響應(yīng))
3.3.2.5 ? ?xls表格中,#字號(hào)分列
3.3.2.6 ? ?行插入四列,根詞,一級(jí),二級(jí),三級(jí)
3.3.2.7 ? ?選擇四列,插入數(shù)據(jù)透視表
3.3.2.8 ? ?在B列進(jìn)行數(shù)字標(biāo)識(shí),直接刪除的為1(無(wú)關(guān)),待定的為2(其間既混有游戲詞也混有無(wú)關(guān)詞),OK的為3
3.3.2.9 ? ?處理完后在E2列輸入函數(shù)公式 ? =VLOOKUP(A2,Sheet4!A:B,2,0),下拉到底等待處理完畢
3.3.2.10 ? ?選擇E2列,篩選,將1的去除,留下2和3的結(jié)果
3.3.2.11 ? ?保存文檔,一份整理完
(這部分待編輯,留優(yōu)化空間)
?
二、 ? ?采集底層文章 -> 根據(jù)2中的詞使用采集工具去采集底層文章
3.1 ? ?使用付費(fèi)工具,水淼軟件,采集非百度的源(可使用360、搜狗、微信、bing、谷歌等,谷歌需翻墻)
3.2 ? ?文章篩選效率優(yōu)化
3.2.1 ? ?規(guī)則:a.包含主要根詞(以網(wǎng)頁(yè)游戲?yàn)槔恼轮邪绊?yè)游”or“webgame”);b.和游戲有關(guān);c.標(biāo)題限制;d.大小限制(大于多少K的可以直接去除);e.文章內(nèi)容下限250字;f.再加上人工的篩選;g.機(jī)器替換競(jìng)品詞和去除某些詞;總體篩選剩余在18%左右
3.3 ? ?采集源優(yōu)化:找非百度的源頭,哪些文章質(zhì)量命中更高一些,如果相同的情況下,可以看下抓取的質(zhì)量或抓取的時(shí)間時(shí)效性
3.3.1 ? ?先采集攻略,防止如果先采集新聞,將攻略類的資源分布進(jìn)去,增加后期調(diào)整的成本
三、 ? ?站點(diǎn)優(yōu)化