无码国内精品久久人妻麻豆按摩,亚洲毛片在线播放,调教美丽的白丝袜麻麻

　域名預(yù)訂/競(jìng)價(jià)，好“米”不錯(cuò)過(guò)

那一年，菊花還只是菊花，2B還是考試時(shí)涂卡使用的鉛筆，黃瓜只有蔬菜的功能，信息檢索技術(shù)(Information Retrieval)還只是簡(jiǎn)單的使用在圖書館、資料庫(kù)等處。

也正是在那一年，信息檢索的相關(guān)排序技術(shù)很風(fēng)靡的是TF-IDF。

或許此刻你會(huì)十分想問(wèn)，啥是TF-IDF?嗯，不捉急，在找尋這個(gè)問(wèn)題的答案之前，先來(lái)看一個(gè)問(wèn)題。

在一堆書籍里面，你想找尋和OOXX主題相關(guān)的資料(不要想歪)，你用什么標(biāo)準(zhǔn)來(lái)判定這堆書籍里面的A比B更符合你的主題呢?

思考一分鐘。

你或許會(huì)說(shuō)，看一下這些書籍的名字，看看哪些書名里面包含我要找的主題的相關(guān)信息，然后再在剩下的這部分書籍中概覽一下內(nèi)容，看看哪個(gè)更符合我想要的。

想法很好。

人是這么想的，信息檢索系統(tǒng)也得這么干才能給出我們最想要的結(jié)果，但是一個(gè)問(wèn)題又暴露了出來(lái)——程序看不懂文字無(wú)法判定。

來(lái)，再給你一分鐘時(shí)間，想想怎么幫程序解決這一問(wèn)題。

嗯，你發(fā)現(xiàn)了，你想查詢的主題中所包含的詞匯跟這堆書籍中的某個(gè)子集內(nèi)容中的詞匯是有交集的。

對(duì)，用上次在搜索引擎原理簡(jiǎn)介的文章中我們談到的基于詞典的分詞技術(shù)，來(lái)找尋交集。

先來(lái)給定一個(gè)詞典，它是N個(gè)詞的集合。

∑={t1，t2，…，tn}

而對(duì)于你搜索的條件q和這堆書籍中的某一本d，則可以根據(jù)這個(gè)詞典表示為：

q={q1，q2，…，qn}

d={d1，d2，…，dn}

其中q1為t1這個(gè)詞匯在你的搜索條件q中出現(xiàn)的次數(shù)，q2為t2這個(gè)詞匯在搜索條件q中出現(xiàn)的次數(shù)，依次類推。如果qn為零，則表示第n個(gè)詞在q中沒有出現(xiàn)。

設(shè)定w1=d1/∑dn，則w1即為詞匯t1在d中出現(xiàn)的頻率，此刻d即可表示為：

d=，wi(i=1,2,3，…，n)即為詞頻(term frequency)。

對(duì)于一些質(zhì)量很高的信息(書籍、文獻(xiàn)等)，詞頻是一個(gè)很好的，可以通過(guò)程序語(yǔ)言實(shí)現(xiàn)的，表達(dá)詞匯在文檔中所占權(quán)重的方式。

嗯?疑問(wèn)出來(lái)了，一些詞比如“我們”、“大家”等這種詞匯也肯定會(huì)在多篇文章中出現(xiàn)，但是用此來(lái)衡量的話顯然上面下的結(jié)論是不成立的啊。

恭喜你想到了這一步，此種詞匯對(duì)于文檔內(nèi)容的辨別來(lái)說(shuō)，實(shí)在木有太大的意義。

來(lái)，找特征，去掉這種詞匯的影響。

啊，這些詞匯會(huì)在多個(gè)文章中同時(shí)出現(xiàn)。

用ki(i=1,2,3，…，n)來(lái)表示ti這個(gè)詞匯在書籍的集合D中所涉及的書籍次數(shù)，M表示書籍D的大小，則ki/M的值即可以說(shuō)明一些問(wèn)題，我們定義這個(gè)值為ti的文檔頻率(document frequency)。

顯然，文檔頻率越高，這個(gè)詞的權(quán)重就應(yīng)該越低。

為了便于計(jì)算，常用的會(huì)是與文檔頻率成反比的一個(gè)量，我們稱之為倒置文檔頻率(inverse document frequency)，定義為：

IDFi=lg(M/ki)

這樣以來(lái)，wi就變成了(哥從網(wǎng)上找了一個(gè)公式)

給定某種權(quán)重的定量設(shè)計(jì)，求文檔和查詢的相關(guān)性就變成了求d和q向量的某種距離，最常用的是余弦(cos)距離(這句話果斷不懂，完全復(fù)制來(lái)的)。

雖然說(shuō)上面的這個(gè)算法在理論上看起來(lái)比較垃圾(不考慮文章的意思，將文章看成詞的集合)，但是從實(shí)踐下來(lái)看，其價(jià)值還是得到了普遍的認(rèn)可(尤其是對(duì)于上述提到的圖書檢索來(lái)說(shuō))。

當(dāng)然，對(duì)于目前web上這些個(gè)魚龍混雜的網(wǎng)頁(yè)，僅僅依靠td-idf是不夠的(很容易造成一大堆關(guān)鍵詞堆砌的網(wǎng)頁(yè)獲得好的排名)，這也促成了基于鏈接關(guān)系等一系列算法的誕生。

原文地址：

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁(yè) > 站長(zhǎng) > 搜索優(yōu)化 > 正文

TF-IDF：傳統(tǒng)IR的相關(guān)排序技術(shù)

相關(guān)文章

熱門排行

信息推薦

編輯推薦

站內(nèi)站外形成鏈輪的深度分析

如何研究行業(yè)用戶數(shù)據(jù)與熱點(diǎn)追蹤

錨文本對(duì)關(guān)鍵詞排名優(yōu)化用處大嗎如何操作

逆冬分享2個(gè)SEO實(shí)戰(zhàn)干貨收錄+快排深度剖析結(jié)果

利用全拼域名快速排名的技巧

熱門標(biāo)簽