網(wǎng)絡(luò)輿情的關(guān)聯(lián)度它是指輿情事件發(fā)生后,牽扯到的企業(yè)單位、媒體、個(gè)人、地區(qū)、歷史事件等,與輿情事件之間的關(guān)聯(lián)性。
面向網(wǎng)絡(luò)輿情的關(guān)聯(lián)度分析方法
在這里以某輿情系統(tǒng)產(chǎn)品為例:
步驟一:數(shù)據(jù)預(yù)處理
步驟二:建模和診斷
步驟三:模型優(yōu)化
步驟 1:數(shù)據(jù)預(yù)處理
(1)缺失值處理
在用戶信息表中,一些用戶的身份證是錯(cuò)誤的,無法修正,當(dāng)成缺失值,因此該用戶的身份證這一項(xiàng)不列入用戶屬性中。在提取 html 文件中,不一定能夠把所需要的屬性(如:性別,地址)提取出來,若不能根據(jù)網(wǎng)址和標(biāo)題分詞得到的地址對地址進(jìn)行填補(bǔ),計(jì)算時(shí)當(dāng)缺失值處理。
(2)重復(fù)值處理
在原始數(shù)據(jù)中,同樣的事件可能會(huì)出現(xiàn)很多次,而經(jīng)過訪問,這些事件大多是抓取時(shí)間不同,代表了網(wǎng)站有更新,即事件的更新度,該事件的頻率可以作為一個(gè)熱度進(jìn)行考慮,但在本次挖掘中,我們是研究用戶與用戶之間的關(guān)系,一個(gè)事件可能關(guān)系著幾個(gè)用戶,那么如果本事件重復(fù)出現(xiàn),就會(huì)使這 2 個(gè)用戶的關(guān)聯(lián)更大,影響著最后結(jié)果的正確性。因此把重復(fù)事件全都去掉,只保留第一次出現(xiàn)的事件,同時(shí)提取了重復(fù)事件頻率,方便研究事件的熱度以及用戶和事件頻率的關(guān)系。
(3)分詞處理
運(yùn)用中科院的分詞軟件,將每個(gè) txt 文本中事件標(biāo)題進(jìn)行分詞,詞性標(biāo)注,以方便提取各個(gè)屬性的詞語。
(4)異常值處理
在分詞后,由于分詞軟件的詞庫是有限大的,因此有些詞語是識別不了。例如:奧巴馬,會(huì)被自動(dòng)分成 3 個(gè)單獨(dú)的名詞:奧,巴,馬。因此,對于這些分詞異常的詞語,要進(jìn)行人工處理,修正。
(5)相關(guān)處理
步驟 2:建模與診斷
(1)用戶與用戶關(guān)聯(lián)度
(2)用戶與事件關(guān)聯(lián)度
(3)模型診斷
步驟 3:模型分析和優(yōu)化
(1)模型缺點(diǎn)
(2)模型優(yōu)點(diǎn)
(3)模型改進(jìn)
識達(dá)科技網(wǎng)絡(luò)輿情的關(guān)聯(lián)度分析服務(wù)免費(fèi)體驗(yàn)入口>>>
相關(guān)推薦:重大輿情統(tǒng)計(jì)工作總結(jié)匯報(bào)
【文章聲明】識達(dá)科技網(wǎng)倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。本網(wǎng)站文章發(fā)布目的在于分享輿情知識。部分內(nèi)容僅是發(fā)稿人為完善客觀信息整理參考,不代表發(fā)稿人的觀點(diǎn)。未經(jīng)許可,不得復(fù)制、轉(zhuǎn)載、或以其他方式使用本網(wǎng)站的內(nèi)容。如發(fā)現(xiàn)本網(wǎng)站文章、圖片等存在版權(quán)問題,請及時(shí)聯(lián)系客服,我們會(huì)在第一時(shí)間刪除或處理相關(guān)內(nèi)容。