Elasticsearch基础_5.ES聚合功能

news/2024/10/3 12:02:41 标签: elasticsearch, ES聚合, aggs, 桶聚合

文章目录

  • 一、数据聚合
    • 1.1、桶聚合
      • 1.1.1、单维度桶聚合
      • 1.1.2、聚合结果排序
      • 1.1.3、限定聚合范围

  • 本文只记录ES聚合基本用法,后续有更复杂的需求可以查看相关书籍,如《Elasticsearch搜索引擎构建入门与实战》

一、数据聚合

聚合可以让我们极其方便的实现对数据的统计、分析、运算。

聚合常见的有三类:

  • (Bucket)聚合:用来对文档做分组

    • TermAggregation:按照文档字段值分组,例如按照品牌值分组、按照国家分组
    • Date Histogram:按照日期阶梯分组,例如一周为一组,或者一月为一组
  • 度量(Metric)聚合:用以计算一些值,比如:最大值、最小值、平均值等

    • Avg:求平均值
    • Max:求最大值
    • Min:求最小值
    • Stats:同时求max、min、avg、sum等
  • 管道(pipeline)聚合:其它聚合的结果为基础做聚合

注意:参加聚合的字段必须是keyword、日期、数值、布尔类型

1.1、桶聚合

1.1.1、单维度桶聚合

  最简单的桶聚合是单维度桶聚合,指的是按照一个维度对文档进行分组聚合。在桶聚合时,聚合的桶也需要匹配的方式,有termsfilterranges等。本节只介绍比较有代表性的terms查询和ranges查询。

GET /hotel/_search
{
  "size": 0,                   // 如果不需要返回匹配的文档信息,最好将返回的文档个数设置为0。这样既可以让结果看起来更整洁,又可以提高查询速度。
  "aggs": {                    // 定义聚合
    "brandAgg": {              // 给聚合起个名字
      "terms": {               // 聚合的类型,按照品牌值聚合,所以选择term
        "field": "brand",      // 参与聚合的字段
        "size": 20             // 希望获取的聚合结果数量
      }
    }
  }
}

在这里插入图片描述

1.1.2、聚合结果排序

 
默认情况下,Bucket聚合会统计Bucket内的文档数量,记为_count,并且按照_count降序排序。

我们可以指定order属性,自定义聚合的排序方式:

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "order": {
          "_count": "asc" // 按照_count升序排列
        },
        "size": 20
      }
    }
  }
}

1.1.3、限定聚合范围

  默认情况下,Bucket聚合是对索引库的所有文档做聚合,但真实场景下,用户会输入搜索条件,因此聚合必须是对搜索结果聚合。那么聚合必须添加限定条件。

  我们可以限定要聚合的文档范围,只要添加query条件即可:

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "lte": 200 // 只对200元以下的文档聚合
      }
    }
  }, 
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "size": 20
      }
    }
  }
}

http://www.niftyadmin.cn/n/5688326.html

相关文章

双大马士革工艺与单大马士革有什么区别?

知识星球里的学员问:铜互联中的大马士革工艺有几种?一直分不清,可以讲解下吗? 大马士革工艺用在哪里? 大马士革工艺(Damascene Process),使铜作为互连材料成为可能。铜相较于铝具有更…

如何判断一个元素在可视区域内(内含案例)

判断一个元素是否在可视区域中,可以使用JavaScript的 IntersectionObserver 或 getBoundingClientRect 方法。以下是两种常见的方式: 1. 使用 getBoundingClientRect() 方法 getBoundingClientRect() 返回元素相对于视口的大小和位置,然后通…

css3-----2D转换、动画

2D 转换(transform) 转换(transform)是CSS3中具有颠覆性的特征之一,可以实现元素的位移、旋转、缩放等效果 移动:translate旋转:rotate缩放:scale 二维坐标系 2D 转换之移动 trans…

开源模型应用落地-模型微调-语料采集-数据格式化(四)

一、前言 在自然语言处理(NLP)的快速发展中,语料采集作为基础性的步骤显得尤为重要。它不仅为机器学习模型提供了所需的训练数据,还直接影响模型的性能和泛化能力。随着数据驱动技术的不断进步,如何有效并高效地收集、清洗和整理丰富多样的语料,已成为研究者和工程师们亟…

深入探索 Pygwalker:Python 数据可视化的强大工具

目录 Pygwalker 简介安装 PygwalkerPygwalker 的基本用法 创建基础图表使用多种图表类型 数据预处理与清洗交互式可视化自定义图表样式与其他数据科学库的结合Pygwalker 的性能评估实际应用案例总结与展望 1. Pygwalker 简介 Pygwalker 是一款开源的 Python 数据可视化库&…

适用于 Windows 10 的最佳 PDF 编辑器列表,可帮助更改 PDF 文件。

PDF 是一种流行的、多功能且安全的文件格式,用于在线共享文档。但是,如果没有合适的应用程序,查看和编辑 PDF 文件可能会变得复杂。 幸运的是,有很多 PDF 编辑器可以帮助您更正重要文档上的错误、填写表格、为合同添加签名、更改…

代码随想录算法训练营DAY10之动态规划(二)背包问题

01背包理论基础 406、分割等和子集 力扣题目链接 题目描述 给定一个只包含正整数的非空数组。是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 注意: 每个数组中的元素不会超过 100 数组的大小不会超过 200 示例 1: 输入: [1, 5, 11, 5]输出: true …

进程和线程之间的通用方式

进程之间的通信方式有哪些 进程间通信(Inter-Process Communication, IPC)是指不同进程之间传递信息和数据的机制。由于进程之间的内存空间是相互独立的,因此必须使用特定的通信方式来实现数据共享。 以下是常见的进程间通信方式&#xff1…