混合语言域 | Elasticsearch: 权威指南

混合语言域 | Elasticsearch: 权威指南 | Elastic

2025-11-19

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» » »

混合语言域编辑

通常,那些从源数据中获得的多种语言混合在一个域中的文档会超出你的控制，例如从网上爬取的页面：

{ "body": "Page not found / Seite nicht gefunden / Page non trouvée" }

正确的处理多语言类型文档是非常困难的。即使你简单对所有的域使用 standard （标准）分析器，但你的文档会变得不利于搜索，除非你使用了合适的词干提取器。当然，你不可能只选择一个词干提取器。词干提取器是由语言具体决定的。或者，词干提取器是由语言和脚本所具体决定的。像在每种书写方式一种词干提取器讨论中那样。如果每个语言都使用不同的脚本，那么词干提取器就可以合并了。

假设你的混合语言使用的是一样的脚本，例如拉丁文，你有三个可用的选择：

切分到不同的域
进行多次分析
使用 n-grams

切分到不同的域编辑

在语言识别提到过的紧凑的语言检测可以告诉你哪部分文档属于哪种语言。你可以用每个域一种语言中用过的一样的方法来根据语言切分文本。

进行多次分析编辑

如果你主要处理数量有限的语言，你可以使用多个域，每种语言都分析文本一次。

PUT /movies
{
  "mappings": {
    "title": {
      "properties": {
        "title": { 
          "type": "string",
          "fields": {
            "de": { 
              "type":     "string",
              "analyzer": "german"
            },
            "en": { 
              "type":     "string",
              "analyzer": "english"
            },
            "fr": { 
              "type":     "string",
              "analyzer": "french"
            },
            "es": { 
              "type":     "string",
              "analyzer": "spanish"
            }
          }
        }
      }
    }
  }
}

	主域 `title` 使用 `standard` （标准）分析器
	每个子域提供不同的语言分析器来对 `title` 域文本进行分析。

使用 n-grams编辑

你可以使用 Ngrams 在复合词的应用中描述的方法索引所有的词汇为 n-grams。大多数语型变化包含给单词添加一个后缀（或在一些语言中添加前缀），所以通过将单词拆成 n-grams，你有很大的机会匹配到相似但不完全一样的单词。这个可以结合 analyze-multiple times （多次分析）方法为不支持的语言提供全域抓取：

PUT /movies
{
  "settings": {
    "analysis": {...} 
  },
  "mappings": {
    "title": {
      "properties": {
        "title": {
          "type": "string",
          "fields": {
            "de": {
              "type":     "string",
              "analyzer": "german"
            },
            "en": {
              "type":     "string",
              "analyzer": "english"
            },
            "fr": {
              "type":     "string",
              "analyzer": "french"
            },
            "es": {
              "type":     "string",
              "analyzer": "spanish"
            },
            "general": { 
              "type":     "string",
              "analyzer": "trigrams"
            }
          }
        }
      }
    }
  }
}

	在 `analysis` 章节, 我们按照 Ngrams 在复合词的应用中描述的定义了同样的 `trigrams` 分析器。
	在 `title.general` 域使用 `trigrams` 分析器索引所有的语言。

当查询抓取所有 general 域时，你可以使用 minimum_should_match （最少应当匹配数）来减少低质量的匹配。或许也需要对其他字段进行稍微的加权，给与主语言域的权重要高于其他的在 general 上的域：

GET /movies/movie/_search
{
    "query": {
        "multi_match": {
            "query":    "club de la lucha",
            "fields": [ "title*^1.5", "title.general" ], 
            "type":     "most_fields",
            "minimum_should_match": "75%" 
        }
    }
}

	所有 `title` 或 `title.*` 域给与了比 `title.general` 域稍微高的加权。
	minimum_should_match`（最少应当匹配数）参数减少了低质量匹配的返回数, 这对 `title.general 域尤其重要。

« 每个域一种语言词汇识别 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/mixed-lang-fields.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch HTML/CSS/XML 面试数据库网络 JAVA NoSQL C/C++ Golang 操作系统 Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 商业硬件电子娱乐设计摄影 nginx WordPress 游戏 HTTP 团建数码电器 Docker

携程Elasticsearch数据同步实践 Elasticsearch集群模式知多少 Elasticsearch是做什么的以及它的使用和基本原理 Elasticsearch简介与实战 elasticsearch动态映射如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch配置 elasticsearch集群分布式特性 Elasticsearch集群高亮搜索 elasticsearch最新版安装两节点Elasticsearch集群 elasticsearch集群部署文档 ElasticSearch自带的分词类型安装elasticsearch的java环境确认 es 相关配置文件 ES查找空字符串【Elasticsearch集群】打分策略详解与explain手把手计算 Elasticsearch Mapping设置 [Elasticsearch集群分页]from-size VS scroll-scan elasticsearch集群新机搭建

略微加速

Elasticsearch权威指南 - 互联网笔记

混合语言域编辑

切分到不同的域编辑

进行多次分析编辑

使用 n-grams编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

混合语言域编辑

切分到不同的域编辑

进行多次分析编辑

使用 n-grams编辑

Getting Started Videos