词干提取算法 | Elasticsearch: 权威指南

词干提取算法 | Elasticsearch: 权威指南 | Elastic

2025-11-19

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» » »

词干提取算法编辑

Elasticsearch 中的大部分 stemmers （词干提取器）是基于算法的，它们提供了一系列规则用于将一个词提取为它的词根形式，例如剥离复数词末尾的 s 或 es 。提取单词词干时并不需要知道该词的任何信息。

这些基于算法的 stemmers 优点是：可以作为插件使用，速度快，占用内存少，有规律的单词处理效果好。缺点是：没规律的单词例如 be 、 are 、和 am ，或 mice 和 mouse 效果不好。

最早的一个基于算法的英文词干提取器是 Porter stemmer ，该英文词干提取器现在依然推荐使用。 Martin Porter 后来为了开发词干提取算法创建了 Snowball language 网站，很多 Elasticsearch 中使用的词干提取器就是用 Snowball 语言写的。

kstem token filter 是一款合并了词干提取算法和内置词典的英语分词过滤器。为了避免模糊词不正确提取，这个词典包含一系列根词单词和特例单词。 kstem 分词过滤器相较于 Porter 词干提取器而言不那么激进。

使用基于算法的词干提取器编辑

你可以使用 porter_stem 词干提取器或直接使用 kstem 分词过滤器，或使用 snowball 分词过滤器创建一个具体语言的 Snowball 词干提取器。所有基于算法的词干提取器都暴露了用来接受 语言 参数的统一接口： stemmer token filter 。

例如，假设你发现 英语 分析器使用的默认词干提取器太激进并且你想使它不那么激进。首先应在 language analyzers 查看 英语 分析器配置文件，配置文件展示如下：

{
  "settings": {
    "analysis": {
      "filter": {
        "english_stop": {
          "type":       "stop",
          "stopwords":  "_english_"
        },
        "english_keywords": {
          "type":       "keyword_marker", 
          "keywords":   []
        },
        "english_stemmer": {
          "type":       "stemmer",
          "language":   "english" 
        },
        "english_possessive_stemmer": {
          "type":       "stemmer",
          "language":   "possessive_english" 
        }
      },
      "analyzer": {
        "english": {
          "tokenizer":  "standard",
          "filter": [
            "english_possessive_stemmer",
            "lowercase",
            "english_stop",
            "english_keywords",
            "english_stemmer"
          ]
        }
      }
    }
  }
}

	`keyword_marker` 分词过滤器列出那些不用被词干提取的单词。这个过滤器默认情况下是一个空的列表。
	`english` 分析器使用了两个词干提取器： `possessive_english` 词干提取器和 `english` 词干提取器。所有格词干提取器会在任何词传递到 `english_stop` 、 `english_keywords` 和 `english_stemmer` 之前去除 `'s` 。

重新审视下现在的配置，添加上以下修改，我们可以把这份配置当作新分析器的基本配置：

修改 english_stemmer ，将 english （porter_stem 分词过滤器的映射）替换为 light_english （非激进的 kstem 分词过滤器的映射）。
添加 asciifolding 分词过滤器用以移除外语的附加符号。
移除 keyword_marker 分词过滤器，因为我们不需要它。（我们会在控制词干提取中详细讨论它）

新定义的分析器会像下面这样:

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "english_stop": {
          "type":       "stop",
          "stopwords":  "_english_"
        },
        "light_english_stemmer": {
          "type":       "stemmer",
          "language":   "light_english" 
        },
        "english_possessive_stemmer": {
          "type":       "stemmer",
          "language":   "possessive_english"
        }
      },
      "analyzer": {
        "english": {
          "tokenizer":  "standard",
          "filter": [
            "english_possessive_stemmer",
            "lowercase",
            "english_stop",
            "light_english_stemmer", 
            "asciifolding" 
          ]
        }
      }
    }
  }
}

	将 `english` 词干提取器替换为非激进的 `light_english` 词干提取器
	添加 `asciifolding` 分词过滤器

« 将单词还原为词根字典词干提取器 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/algorithmic-stemmers.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch HTML/CSS/XML 面试数据库网络 JAVA NoSQL C/C++ Golang 操作系统 Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 商业硬件电子娱乐设计摄影 nginx WordPress 游戏 HTTP 团建数码电器 Docker

携程Elasticsearch数据同步实践 Elasticsearch集群模式知多少 Elasticsearch是做什么的以及它的使用和基本原理 Elasticsearch简介与实战 elasticsearch动态映射如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch配置 elasticsearch集群分布式特性 Elasticsearch集群高亮搜索 elasticsearch最新版安装两节点Elasticsearch集群 elasticsearch集群部署文档 ElasticSearch自带的分词类型安装elasticsearch的java环境确认 es 相关配置文件 ES查找空字符串【Elasticsearch集群】打分策略详解与explain手把手计算 Elasticsearch Mapping设置 [Elasticsearch集群分页]from-size VS scroll-scan Elasticsearch－基础介绍及索引原理分析

略微加速

Elasticsearch权威指南 - 互联网笔记

词干提取算法编辑

使用基于算法的词干提取器编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

词干提取算法编辑

使用基于算法的词干提取器编辑

Getting Started Videos