语音匹配 | Elasticsearch: 权威指南

语音匹配 | Elasticsearch: 权威指南 | Elastic

2025-11-07

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» » »

语音匹配编辑

最后，在尝试任何其他匹配方法都无效后，我们可以求助于搜索发音相似的词，即使他们的拼写不同。

有一些用于将词转换成语音标识的算法。 Soundex 算法是这些算法的鼻祖，而且大多数语音算法是 Soundex 的改进或者专业版本，例如 Metaphone 和 Double Metaphone （扩展了除英语以外的其他语言的语音匹配）， Caverphone 算法匹配了新西兰的名称， Beider-Morse 算法吸收了 Soundex 算法为了更好的匹配德语和依地语名称， Kölner Phonetik 为了更好的处理德语词汇。

值得一提的是，语音算法是相当简陋的，他们设计初衷针对的语言通常是英语或德语。这限制了他们的实用性。不过，为了某些明确的目标，并与其他技术相结合，语音匹配能够作为一个有用的工具。

首先，你需要从 https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-phonetic.html 获取语音分析插件并在集群的每个节点安装，然后重启每个节点。

然后，您可以创建一个使用语音语汇单元过滤器的自定义分析器，并尝试下面的方法：

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "dbl_metaphone": { 
          "type":    "phonetic",
          "encoder": "double_metaphone"
        }
      },
      "analyzer": {
        "dbl_metaphone": {
          "tokenizer": "standard",
          "filter":    "dbl_metaphone" 
        }
      }
    }
  }
}

	首先，配置一个自定义 `phonetic` 语汇单元过滤器并使用 `double_metaphone` 编码器。
	然后在自定义分析器中使用自定义语汇单元过滤器。

现在我们可以通过 analyze API 来进行测试：

GET /my_index/_analyze?analyzer=dbl_metaphone
Smith Smythe

每个 Smith 和 Smythe 在同一位置产生两个语汇单元： SM0 和 XMT 。通过分析器播放 John ， Jon 和 Johnnie 将产生两个语汇单元 JN 和 AN ，而 Jonathon 产生语汇单元 JN0N 和 ANTN 。

语音分析器可以像任何其他分析器一样使用。首先映射一个字段来使用它，然后索引一些数据：

PUT /my_index/_mapping/my_type
{
  "properties": {
    "name": {
      "type": "string",
      "fields": {
        "phonetic": { 
          "type":     "string",
          "analyzer": "dbl_metaphone"
        }
      }
    }
  }
}

PUT /my_index/my_type/1
{
  "name": "John Smith"
}

PUT /my_index/my_type/2
{
  "name": "Jonnie Smythe"
}

name.phonetic 字段使用自定义 dbl_metaphone 分析器。

可以使用 match 查询来进行搜索：

GET /my_index/my_type/_search
{
  "query": {
    "match": {
      "name.phonetic": {
        "query": "Jahnnie Smeeth",
        "operator": "and"
      }
    }
  }
}

这个查询返回全部两个文档，演示了如何进行简陋的语音匹配。用语音算法计算评分是没有价值的。语音匹配的目的不是为了提高精度，而是要提高召回率--以扩展足够的范围来捕获可能匹配的文档。

通常更有意义的使用语音算法是在检索到结果后，由另一台计算机进行消费和后续处理，而不是由人类用户直接使用。

« 模糊性评分聚合 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/phonetic-matching.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch HTML/CSS/XML 面试数据库网络 JAVA NoSQL C/C++ Golang 操作系统 Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS Excel TCP/IP Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 商业硬件电子娱乐设计摄影 nginx WordPress 游戏 HTTP 团建数码电器 Docker

携程Elasticsearch数据同步实践 Elasticsearch集群模式知多少 Elasticsearch是做什么的以及它的使用和基本原理 Elasticsearch简介与实战 elasticsearch动态映射如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch配置 elasticsearch集群分布式特性 Elasticsearch集群高亮搜索 elasticsearch最新版安装 elasticsearch集群部署文档两节点Elasticsearch集群 ElasticSearch自带的分词类型 elasticsearch出现只读索引如何操作 blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];') 安装elasticsearch的java环境确认 Elasticsearch集群节点(角色)类型解释node.master和node.data Elasticsearch Mapping设置【Elasticsearch集群】打分策略详解与explain手把手计算 ElasticSearch 的聚合（Aggregations） elasticsearch 查询（match和term）

略微加速

Elasticsearch权威指南 - 互联网笔记

语音匹配编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

语音匹配编辑

Getting Started Videos