亚洲网站在线观看_免费性无码在线专区_免费女人高潮又粗又大毛片_欧美性爱在线视频看看_日韩国产中文无码一区_国产欧美精品一二三区展播_综合自拍欧美乱伦_老司机久久精品视频_日韩一级黄色录像_毛片在线无码频在线观看

您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報第一章的學(xué)習(xí),如何利用統(tǒng)計模型進(jìn)行分詞。

本方法考慮了3個維度:

凝聚程度:兩個字連續(xù)出現(xiàn)的概率并不是各自獨立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨立概率之積。所以我們可以認(rèn)為“上床”是一個詞。

左鄰字聚合熵:分出的詞左邊一個字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個詞的信息量,同上。

下面是一個利用Python實現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

亚洲精品无码这里精品16 | 久久亚洲福利免费视频观看 | 亚欧洲精品在线视频免费观看 | 久久久久国产一级毛片高清片 | 少妇真实被内射视频三四区 | 十八无遮挡免费视频 | 成AV人片一区二区三区久久 | 国产欧美精品一区二区色综合 | 亚洲丰满熟女一区二区蜜桃 | 国产大爆乳大爆乳在线播放 | AV片在线观看免费光看高清 | 一本大道av伊人久久综合 | 国产一区二区三区免费看不卡 | 国产欧美秘密入口一区二区 | 有免费的看片的播放器 | 久久se精品一区二区三区 | 欧美国产一区二区三区激情无套 | 亚洲国产一区二区在线观看 | 一区二区三区中文人妻制服 | 国产在线精品一区二区在线看 | 最近中文字幕在线中文视频 | 日韩免费无码电影一区二区三区 | 亚洲一区二区三区四区在线观看 | 毛片免费视频肛交颜射免费视频 | 日韩精品无码熟人妻我不卡 | 精品人妻潮喷久久久又裸又黄 | 国产精品一级无码免费播放 | 国产精品美女久久久久AV爽 | 亚洲码一区二区三区 | 亚洲成aV无码人在线观看 | 蜜桃av噜噜一区二区三区 | 亚洲欧美真实a在线观看 | 中字幕视频在线永久在线观看免费 | 欧美人与动牲猛交a欧美精品 | 国产成人亚洲精品无码古代 | 亚洲一区在线日韩在线尤物 | 免费A级毛片无码无遮挡 | 99产精品成人啪免费网站 | 后入内射无码人妻一区 | 国产无吗一区二区三区在线欢 | 亚洲日韩精品欧美一区二区 |