首页重庆seo服务 › 什么是分词分词的原理分词对seo的影响

什么是分词分词的原理分词对seo的影响

欢迎来到重庆seo优化技巧学习分享博客。上篇文章回顾,我们学习了TDK三大标签的作用以及查看和使用方法。接下来我们一起来学习分词技术。

研究搜索引擎的分词技术,无论是对用户的检索还是对seo都具有非常重要的意义。同时分词技术对搜索引擎本身而言也是相当重要的,分词的准确性关系到检索结果的质量。

1.什么是分词

分词又叫做切词,是将连续的自序列按照一定的规范重新组合成词序列的过程。

为什么会有分词?这里说的分词是中文分词,因为对英文而言,它是以单词为单位的,词与词之间是有空格隔开,而中文是以字为单位,多个字连在一起才能构成一个表达具体含义的词,词与词之间是没有分割,因此,对于支持自然语言检索的工具,从语句中划分出具有独立意义的词的过程即进行中文分词必不可少。

2.分词的原理:中文分词分类:

(1)基于字符串的匹配也就是机械分词法。机械分词法的原理是将搜索栏的字符串与一个庞大的机器字典中的词进行匹配。常见的三种匹配方式:第一种是正向最大匹配,比如走路和气质,它会切分为走路、和气质。第二种是逆向最大匹配,如果用逆向最大匹配法走路和气质它会拆分为走路、和、气质。第三种是最少切分法,它是使每一句中切出的词数量最少,还可以将上述的方法相互结合。比如说双向最大匹配,一般来说逆向匹配的切分精度越高于正向匹配,遇到的歧义现象也比较少。

(2)基于理解的分词方法。指在分词的同时进行句法、语义的分析,利用句法信息和语言信息来处理歧义现象。

(3)基于统计的分词方法。是根据汉字共同出现的频率来分词。

以百度搜索引擎为例:百度搜索引擎有一个专有词典,分词时首先查询专有词典(人名、部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果。如果单字也相同,则选择正向分词结果。这种分词也是百度核心技术之一,那么也不会将细节告诉给大家。只能通过检索词进行查看。

检索词在百度的分词情况

检索词在百度的分词情况

检索词在百度的分词情况

根据检索在百度的分词情况,可以得出的结论:

百度同时做出多种分词方式,首先不拆分进行查找,然后先识别专有名词和新词,再对其余部分进行拆分,采用双向最大匹配的方式。

3.分词对seo的影响

中文分词的准确性往往会影响到搜索引擎排名的相关性。所以就提醒我们,第一要充分利用中文分词撰写网站标题,第二我们要利用中文分词撰写网站描述。

看完思考:百度是怎么处理中文分词的?

转载本站文章请注明出处:什么是分词分词的原理分词对seo的影响

文章出自:黄楼seo

上一篇:

下一篇:


博主精心推荐:
阿里云服务器(ECS) 阿里云精品网站模版 阿里云DDoS高防IP 阿里云服务器30元/月
已有1条评论
  1. Kristanna 2016-08-10 22:22:45 回复

    Sonia,Your kaya have such pretty orangy hues.Duck egg….I learn something new every time i drop by your blog. Paiuni!!!!mda..^^

公安备案图标渝公网安备 50010802001971号 网站地图 重庆seo
×
用户注册

 

登录 忘记密码?
×
用户登录

 

注册 忘记密码?
×
订阅图标按钮