控制词干提取 | Elasticsearch: 权威指南

控制词干提取 | Elasticsearch: 权威指南 | Elastic

2025-11-19

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» » »

控制词干提取编辑

开箱即用的词干提取方案永远也不可能完美。尤其是算法提取器，他们可以愉快的将规则应用于任何他们遇到的词，包含那些你希望保持独立的词。也许，在你的场景，保持独立的 skies 和 skiing 是重要的，你不希望把他们提取为 ski （正如 english 分析器那样）。

语汇单元过滤器 keyword_marker 和 stemmer_override 能让我们自定义词干提取过程。

阻止词干提取编辑

语言分析器（查看配置语言分析器）的参数 stem_exclusion 允许我们指定一个词语列表，让他们不被词干提取。

在内部，这些语言分析器使用 keyword_marker 语汇单元过滤器来标记这些词语列表为 keywords ，用来阻止后续的词干提取过滤器来触碰这些词语。

例如，我们创建一个简单自定义分析器，使用 porter_stem 语汇单元过滤器，同时阻止 skies 的词干提取：

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "no_stem": {
          "type": "keyword_marker",
          "keywords": [ "skies" ] 
        }
      },
      "analyzer": {
        "my_english": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "no_stem",
            "porter_stem"
          ]
        }
      }
    }
  }
}

参数 keywords 可以允许接收多个词语。

使用 analyze API 来测试，可以看到词 skies 没有被提取：

GET /my_index/_analyze?analyzer=my_english
sky skies skiing skis

返回: sky, skies, ski, ski

虽然语言分析器只允许我们通过参数 stem_exclusion 指定一个词语列表来排除词干提取，不过 keyword_marker 语汇单元过滤器同样还接收一个 keywords_path 参数允许我们将所有的关键字存在一个文件。这个文件应该是每行一个字，并且存在于集群的每个节点。查看更新停用词（Updating Stopwords）了解更新这些文件的提示。

自定义提取编辑

在上面的例子中，我们阻止了 skies 被词干提取，但是也许我们希望他能被提干为 sky 。 The stemmer_override 语汇单元过滤器允许我们指定自定义的提取规则。与此同时，我们可以处理一些不规则的形式，如：mice 提取为 mouse 和 feet 到 foot ：

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "custom_stem": {
          "type": "stemmer_override",
          "rules": [ 
            "skies=>sky",
            "mice=>mouse",
            "feet=>foot"
          ]
        }
      },
      "analyzer": {
        "my_english": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "custom_stem", 
            "porter_stem"
          ]
        }
      }
    }
  }
}

GET /my_index/_analyze?analyzer=my_english
The mice came down from the skies and ran over my feet

	规则来自 `original=>stem` 。
	`stemmer_override` 过滤器必须放置在词干提取器之前。
	返回 `the`, `mouse`, `came`, `down`, `from`, `the`, `sky`, `and`, `ran`, `over`, `my`, `foot` 。

正如 keyword_marker 语汇单元过滤器，规则可以被存放在一个文件中，通过参数 rules_path 来指定位置。

« 选择一个词干提取器原形词干提取 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/controlling-stemming.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch HTML/CSS/XML 面试数据库网络 JAVA NoSQL C/C++ Golang 操作系统 Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 商业硬件电子娱乐设计摄影 nginx WordPress 游戏 HTTP 团建数码电器 Docker

携程Elasticsearch数据同步实践 Elasticsearch集群模式知多少 Elasticsearch是做什么的以及它的使用和基本原理 Elasticsearch简介与实战 elasticsearch动态映射如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch配置 elasticsearch集群分布式特性 Elasticsearch集群高亮搜索 elasticsearch最新版安装两节点Elasticsearch集群 elasticsearch集群部署文档 ElasticSearch自带的分词类型安装elasticsearch的java环境确认 es 相关配置文件 ES查找空字符串【Elasticsearch集群】打分策略详解与explain手把手计算 Elasticsearch Mapping设置 [Elasticsearch集群分页]from-size VS scroll-scan Elasticsearch－基础介绍及索引原理分析

略微加速

Elasticsearch权威指南 - 互联网笔记

控制词干提取编辑

阻止词干提取编辑

自定义提取编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

控制词干提取编辑

阻止词干提取编辑

自定义提取编辑

Getting Started Videos