先给大家说几个概念,为了下面的讲述中,大家都能看得懂。
1、文档:我们是以网页的形式看到互联网页面的,而网页中包含很多的东西,比如:TXT、EXCEL、PDF等等很多各式各样的文件都被成为文档。
2、文档集合:由很多的文档组成一个集合,称为文档集合。
3、文档编号:互联网上每一个文档都有各自且独一无二的编号。
4、单词编号:每个单词都有各自的唯一编号,用编号来代表这个单词或、短语者句子。
5、倒排索引:是在搜索引起的索引库中,以单词对应网页的一种存储的形式,可以根据单词快速的获取相关的文档。
其实倒排索引非常的简单,下面就结合一些特征案例来渐渐深入的分析这个算法,大家先了解一些基本的思路即可。
另外由于中文和英文的文化属性不相同,中文的汉字之间没有明显像英文单词那样的分隔符,索引首先对中文要进行一下分词(下面举例中暂时不去掉停止词),这样就把一句话变成了一个个的词组,
比如单词“小明”,其其单词编号为“1”,倒排列表“1,2,4,5”,表示这几个文档集合中都包含了这个单词。实际上搜索引擎更为复杂,不仅仅记录了单词的文档编号,还记录了单词的频率(TF,什么意思呢?很多seo从业者都在说关键词的密度,
市面上计算页面中关键词密度的计算公式有三个:
公式一: 关键词次数/页面总字数 x100%
公式二: 关键词次数/页面总字数/关键词字数 x 100%
公式三: 关键词次数/页面分词数量 x 100%
先不讨论哪个公式的计算方式更加精准,我们发现公式中都出现了关键词的次数,那这个TF就是该单词在页面中出现的次数)
这个TF在搜索引擎计算搜索结果排序时,分析查询词和文档库中哪个文档更为相关的一个参考因素。
以首页自然排名的10个网站的网页类型和标题为例:
首页,排名第一,“早点培训_早餐培训班_早点培训学校【免费吃住】”
首页,排名第二,“早餐培训_早餐培训班_早餐培训学校【免费加盟】”
首页,排名第三,“上海顶正小吃培训学校_早点培训_生煎包培训_烧烤培训全国最专…..”
首页,排名第四,“上海早点培训|重庆小面培训|山东杂粮饼培训|卤菜培训|小吃培训…….”
首页,排名第五,“小吃培训_特色小吃_小吃项目加盟-老灶台特色小吃培训学校”
内页,排名第六,“早点培训 正规早点培训班-培训通”
首页,排名第七,“艺尚食代-早餐早点培训”
首页,排名第八,“小吃培训,早点培训,上海面点培训,上海德志厨艺美食培训中心021-…”
首页,排名第九,“早餐店加盟_营养早餐加盟_特色早点加盟店_早餐店连锁加盟培训_开…”
内页,排名第十,“早点培训班 正宗早点培训中心-培训通”
分析得出:早点培训在这个10个网站中基本上都出现了2词,大家有没有发现早点和早餐是近义词,(比如:我早点吃了什么,我早餐吃了什么。这两句话表达的是同一个意思。)等于是增加了一遍词频,也就是3次了,在这里提醒大家关键词千万不要堆砌,要保持一个自然性。
泉州华夏天宝妇产医院https://yyk.familydoctor.com.cn/21333/
烟台烟城男科医院https://yyk.familydoctor.com.cn/21338/