排序方式
为了使结果可以按照相关性进行排序,我们需要一个相关性的值。在ElasticSearch的查询结果中,
相关性分值会用_score
字段来给出一个浮点型的数值,所以默认情况下,结果集以_score
进行倒序排列。
有时,即便如此,你还是没有一个有意义的相关性分值。比如,以下语句返回所有tweets中 user_id
是否
包含值 1
:
过滤语句与 _score
没有关系,但是有隐含的查询条件 match_all
为所有的文档的 _score
设值为 1
。
也就相当于所有的文档相关性是相同的。
下面例子中,对结果集按照时间排序,这也是最常见的情形,将最新的文档排列靠前。
我们使用 sort
参数进行排序:
GET /_search
{
"query" : {
"filtered" : {
},
"sort": { "date": { "order": "desc" }}
}
你会发现这里有两个不同点:
<2> date
字段被转为毫秒当作排序依据。
首先,在每个结果中增加了一个 sort
字段,它所包含的值是用来排序的。
在这个例子当中 date
字段在内部被转为毫秒,即长整型数字1411516800000
等同于日期字符串 2014-09-24 00:00:00 UTC
。
其次就是 _score
和 max_score
字段都为 null
。计算 是比较消耗性能的,
而且通常主要用作排序 — 我们不是用相关性进行排序的时候,就不需要统计其相关性。
如果你想强制计算其相关性,可以设置track_scores
为 true
。
默认排序
作为缩写,你可以只指定要排序的字段名称:
"sort": "number_of_children"
字段值默认以顺序排列,而 _score
默认以倒序排列。
排序是很重要的。结果集会先用第一排序字段来排序,当用用作第一字段排序的值相同的时候,
然后再用第二字段对第一排序值相同的文档进行排序,以此类推。
多级排序不需要包含 _score
— 你可以使用几个不同的字段,如位置距离或者自定义数值。
字符串参数排序
字符查询也支持自定义排序,在查询字符串使用sort
参数就可以:
GET /_search?sort=date:desc&sort=_score&q=search
在为一个字段的多个值进行排序的时候, 其实这些值本来是没有固定的排序的— 一个拥有多值的字段就是一个集合,
你准备以哪一个作为排序依据呢?
对于数字和日期,你可以从多个值中取出一个来进行排序,你可以使用min
, max
, avg
或 sum
这些模式。
比说你可以在 字段中用最早的日期来进行排序: