归一化词元 | Elasticsearch: 权威指南

归一化词元 | Elasticsearch: 权威指南 | Elastic

2025-11-19

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» »

归一化词元编辑

把文本切割成词元(token)只是这项工作的一半。为了让这些词元(token)更容易搜索, 这些词元(token)需要被 归一化(normalization)--这个过程会去除同一个词元(token)的无意义差别，例如大写和小写的差别。可能我们还需要去掉有意义的差别, 让 esta`、`ésta 和 está 都能用同一个词元(token)来搜索。你会用 déjà vu 来搜索，还是 deja vu?

这些都是语汇单元过滤器的工作。语汇单元过滤器接收来自分词器(tokenizer)的词元(token)流。还可以一起使用多个语汇单元过滤器，每一个都有自己特定的处理工作。每一个语汇单元过滤器都可以处理来自另一个语汇单元过滤器输出的单词流。

« 整理输入文本举个例子 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/token-normalization.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch HTML/CSS/XML 面试数据库网络 JAVA NoSQL C/C++ Golang 操作系统 Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 商业硬件电子娱乐设计摄影 nginx WordPress 游戏 HTTP 团建数码电器 Docker

携程Elasticsearch数据同步实践 Elasticsearch集群模式知多少 Elasticsearch是做什么的以及它的使用和基本原理 Elasticsearch简介与实战 elasticsearch动态映射如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch配置 elasticsearch集群分布式特性 Elasticsearch集群高亮搜索 elasticsearch最新版安装两节点Elasticsearch集群 elasticsearch集群部署文档 ElasticSearch自带的分词类型安装elasticsearch的java环境确认 es 相关配置文件 ES查找空字符串【Elasticsearch集群】打分策略详解与explain手把手计算 Elasticsearch Mapping设置 [Elasticsearch集群分页]from-size VS scroll-scan Elasticsearch－基础介绍及索引原理分析

略微加速

Elasticsearch权威指南 - 互联网笔记

归一化词元编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

归一化词元编辑

Getting Started Videos