Ngrams 在部分匹配的应用 | Elasticsearch: 权威指南

Ngrams 在部分匹配的应用 | Elasticsearch: 权威指南 | Elastic

2025-11-23

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» » »

Ngrams 在部分匹配的应用编辑

之前提到：“只能在倒排索引中找到存在的词。” 尽管 prefix 、 wildcard 、 regexp 查询告诉我们这种说法并不完全正确，但单个词的查找确实要比在词列表中盲目挨个查找的效率要高得多。在搜索之前准备好供部分匹配的数据可以提高搜索的性能。

在索引时准备数据意味着要选择合适的分析链，这里部分匹配使用的工具是 n-gram 。可以将 n-gram 看成一个在词语上 滑动窗口 ， n 代表这个 “窗口” 的长度。如果我们要 n-gram quick 这个词 —— 它的结果取决于 n 的选择长度：

长度 1（unigram）： [ q, u, i, c, k ]
长度 2（bigram）： [ qu, ui, ic, ck ]
长度 3（trigram）： [ qui, uic, ick ]
长度 4（four-gram）： [ quic, uick ]
长度 5（five-gram）： [ quick ]

朴素的 n-gram 对 词语内部的匹配 非常有用，即在 Ngram 匹配复合词介绍的那样。但对于输入即搜索（search-as-you-type）这种应用场景，我们会使用一种特殊的 n-gram 称为 边界 n-grams （edge n-grams）。所谓的边界 n-gram 是说它会固定词语开始的一边，以单词 quick 为例，它的边界 n-gram 的结果为：

q
qu
qui
quic
quick

可能会注意到这与用户在搜索时输入 “quick” 的字母次序是一致的，换句话说，这种方式正好满足即时搜索（instant search）！

« 索引时优化索引时输入即搜索 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/_ngrams_for_partial_matching.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch HTML/CSS/XML 面试数据库网络 JAVA NoSQL C/C++ Golang 操作系统 Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 商业硬件电子娱乐设计摄影 nginx WordPress 游戏 HTTP 团建数码电器 Docker

携程Elasticsearch数据同步实践 Elasticsearch集群模式知多少 Elasticsearch是做什么的以及它的使用和基本原理 Elasticsearch简介与实战 elasticsearch动态映射如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch配置 elasticsearch集群分布式特性 elasticsearch最新版安装 Elasticsearch集群高亮搜索两节点Elasticsearch集群 elasticsearch集群部署文档 ElasticSearch自带的分词类型安装elasticsearch的java环境确认【Elasticsearch集群】打分策略详解与explain手把手计算 es 相关配置文件 [Elasticsearch集群分页]from-size VS scroll-scan Elasticsearch Mapping设置 elasticsearch集群新机搭建 Elasticsearch6.X 新类型Join深入详解

略微加速

Elasticsearch权威指南 - 互联网笔记

Ngrams 在部分匹配的应用编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

Ngrams 在部分匹配的应用编辑

Getting Started Videos