正排索引与倒排索引

Onlywjy 2018-01-28 原文

正排索引与倒排索引

什么是正排索引（forward index）？

由key查询实体的过程，是正排索引.

在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合（实际上在搜索引擎索引库中，关键词也已经转换为关键词ID）。简单的，正排索引可以理解为(文件内容会对应一个分词后的集合list<< item >>)Map>，能够由id快速（时间复杂度O(1)）找到内容的一个数据结构。

什么是倒排索引（inverted index）？

由item查询key的过程，是倒排索引。

倒排索引可以理解为Map<item, list< id>>，能够由查询词快速（时间复杂度O(1)）找到包含这个查询词的文件的数据结构。

举例：

文档编号(id）	文档内容
1	我喜欢数学
2	我喜欢编程
3	我考试数学成绩很好
4	编程太难了

分词之后的正排索引Map<id, list< item>>

文档编号（id）	分词后的集合（list< item>）
1	{我,喜欢,数学}
2	{我,喜欢,编程}
3	{我,考试,数学,成绩,很好}
4	{编程,太难了}

分词后倒排索引

简单的倒排索引Map>

编号	单词（item）	倒排列表(list< id>)
1	我	1,2,3
2	喜欢	1,2
3	数学	1,3
4	编程	2,4
5	考试	3
6	成绩	3
7	很好	3
8	太难了	4

有单词频率信息（TF）的倒排索引Map>

在单词对应的倒排列表中不仅记录了文档编号，还记载了单词频率信息，即这个单词在某个文档中的出现次数，之所以要记录这个信息，是因为词频信息在搜索结果排序时，计算查询和文档相似度是很重要的一个计算因子，将其记录在倒排列表中，以方便后续排序时进行分值计算。

编号	单词（item）	倒排列表(list< (id;TF)>);
1	我	(1;1),(2;1),(3;1)
2	喜欢	(1;1),(2,1)
3	数学	(1;1),(3;1)
4	编程	(2;1),(4;1)
5	考试	(3;1)
6	成绩	(3;1)
7	很好	(3;1)
8	太难了	(4;1)

有单词频率和出现位置(pos)信息的倒排索引Map)>>

编号	单词（item）	倒排列表(list<(id;TF;< pos>)>);
1	我	(1;1;<1>),(2;1;<1>,(3;1;<1>)
2	喜欢	(1;1;<2>),(2;1;<2>)
3	数学	(1;1;<3>),(3;1;<3>)
4	编程	(2;1;<3>),(4;1;<1>)
5	考试	(3;1;<3>)
6	成绩	(3;1;<4>)
7	很好	(3;1;<5>)
8	太难了	(4;1;<2>)

用户检索过程？

简单来讲：先分词，再找到每个item对应的list< id>,最后进行集合求交集的过程。
分词和倒排查询时间复杂度都是O(1)，整个搜索的时间复杂度取决于“求list的交集”，因此实际上问题也变成了求两个集合的交集。

版权声明：本文为Onlywjy原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/Onlywjy/p/8372452.html

正排索引与倒排索引的更多相关文章

Go操作Elasticsearch
安装ES 拉取es到本地 docker pull docker.elastic.co/elasticsearc […]...
Elasticsearch Lucene 数据写入原理 | ES 核心篇
前言最近 TL 分享了下《Elasticsearch基础整理》https://www.jianshu.co […]...
白日梦的Elasticsearch实战笔记，ES账号免费借用、32个查询案例、15个聚合案例、7个查询优化技巧。
目录一、导读二、福利：账号借用三、_search api 搜索api 3.1、什么是query stri […]...
ElasticSearch搜索引擎的入门实战
1.ElasticSearch简介引用自百度百科: ElasticSearch是一个基于Lucene的搜索服 […]...
elasticsearch-5.x JAVA API（001）
Elasticsearch JAVA API 极其广泛，把所有的方法意义介绍出来显然不太现实。从1.x到2.x […]...
ES 入门之一安装ElasticSearcha
ES 入门之一安装ElasticSearcha 安装ElasticSearcha 学习ES也有快一个月了，但 […]...
小白学ES 08 – Elasticsearch索引的CRUD操作
目录 1 创建索引 2 查看索引 5 打开/关闭索引 3 修改索引 4 删除索引 1 创建索引创建语法 PU […]...
Elasticsearch 之聚合分析入门
看完这篇还不明白什么是聚合分析，来找我！本文主要介绍 Elasticsearch 的聚合功能，介绍什么是 B […]...

随机推荐

docker安装，和虚拟机区别
docker安装 1 在 CentOS 6.4 上安装 docker docker当前官方只支持Ubuntu， […]...
阿里云OSS的使用
1.打开阿里云网站：https://www.aliyun.com/ 2.注册阿里云，最终获取4个参数bucke […]...
H5+混合移动app应用开发——开篇
前言经过2个多月的艰苦奋斗，app的第一个版本已经快完工了，期间遇到了太多的坑，作为一个喜欢分享的人，我当然 […]...
一个分享软件的网站—小众软件
由小众软件读者评选得出优秀的软件，分门别类，总有你喜欢的软件。网址：https://love.appinn. […]...
lambda及stream学习
lambda及stream学习今日板砖，见lambda，不知其然遂不以为意。后又数现之，于是乎查之，究之，学 […]...
Ceph 文件系统-全网最炫酷的Ceph Dashboard页面和Ceph监控 —
Ceph Dashboard实现 Ceph Dashboard介绍 Ceph 的监控可视化界面方案很多R […]...
deepin linux安装与配置
deepin linux 简单配置作者：相思羽出处：http://www.cnblogs.com/xia […]...
springboot spring security 覆盖默认登录Filter, Session manage
pom.xml <?xml version="1.0" encoding="UTF-8"?& […]...

展开目录

目录导航