欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

django+haystack+elasticsearch优化查询效率

程序员文章站 2024-03-07 20:28:21
...

背景

主要就是这边有一个几千万数据的表存在mysql里,临时需要做一个对n个字段的模糊查询,之前考虑了挺多办法,like查询太慢 加了索引也只能’xxx%‘查询,其他两种’%xxx’或’%xxx%'就索引失效,会走mysql全表扫描。之前也做了mysql的全文索引,结果也不尽人意。最后选择了搜索引擎来做模糊查询的优化;
看了网上很多的blog,基本都是复制粘贴,看的我头都大了。于是自己闲着没事也写一篇吧;
说一句题外话,之前有用过Whoosh + jieba分词的时候处理。但是发现结巴分词分的粒度不够小。例如一个title。只能分成几个词、几个字这种。如果单纯搜title里的其中一个字不一定能搜出来。也可能是我姿势不对。
最后用的elasticsearch,elasticsearch自带的分词,粒度就非常小。基本穷举了所有可能。例如title是
“elasticsearch优化查询效率” 可能就切分成了[“elasticsearch”, “优”, “化”, “查”, “询”, “效”, “率”, “优化”, “查询”, “效率”, “优化查询”, ···,“elasticsearch优化查询效率”],n种可能。用户使用起来体验会比较好;

安装环境

// 环境安装,这里就直接放了我的环境安装的版本吧。
pip install django-haystack==2.8.1
// 这里python安装的elasticsearch必须要比本机上安装的elasticsearch应用程序版本低。(我这边安装的2.4.6版本的应用程序)
pip install elasticsearch==2.4.1

配置

1.在settings中的配置

'''注册app '''
INSTALLED_APPS = [
  'django.contrib.admin',
  'django.contrib.auth',
  'django.contrib.contenttypes',
  'django.contrib.sessions',
  'django.contrib.messages',
  'django.contrib.staticfiles',
  # haystack要放在应用的上面
  'haystack',
  'myapp', # 这个jsapp是自己创建的app
]

······

# Haystack接入Elasticsearch
HAYSTACK_CONNECTIONS = {
  'default': {
    'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine',
    'URL': 'http://127.0.0.1:9200/',  # Elasticsearch服务器ip地址,端口号固定为9200
    'INDEX_NAME': 'zzzztop',
  },
}
# 这俩个配置就是属于后期配置了
# 当添加、修改、删除数据时,自动生成索引
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'  # 索引自动更新
# 用于决定每页显示数据条数:
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 100

2.在子应用下创建索引文件

在子应用的目录下,创建一个名为 myapp/search_indexes.py 的文件

from haystack import indexes
from myapp.models import MyModels

# 类名为模型类的名称+Index(可以任意命名)
class MyModelsIndex(indexes.SearchIndex, indexes.Indexable):
    # text为索引字段
    # document = True,这代表haystack和搜索引擎将使用此字段的内容作为索引进行检索
    # use_template=True 指定根据表中的那些字段建立索引文件的说明放在一个文件中
    # 设定之后假如你在索引模板文件里放了{{ object.username }}\n{{ object.age }}
    # 那么你的text就会生成为例如 李华 21
    text = indexes.CharField(document=True, use_template=True)
    # username是添加的额外字段,如果添加了那么在生成索引的时候也会把username对应的值存入索引 
    # 但具体存不存入上面的text里要看索引模板文件里放了什么
    username = indexes.CharField(model_attr='username')

    # 对那张表进行查询
    # 重载get_model方法,必须要有!(具体详情可以去看haystack的源码 这里不展开说了)
    def get_model(self):
        # 返回这个model
        return MyModels

  # 建立索引的数据
    def index_queryset(self, using=None):
        # 这个方法返回什么内容,最终就会对那些方法建立索引,这里是对所有字段建立索引
        return self.get_model().objects.filter(is_put=True)

3.指定索引模板文件

创建文件路径命名必须这个规范:templates/search/indexes/应用名称/模型类名称_text.txt
例如:templates/search/indexes/myapp/mymodels_text.txt

{{ object.username }}
{{ object.age }}

4.使用命令创建索引

// 这里创建索引时要确保索引类创建好,且索引模板路径正常,elasticsearch应用程序正常运行
python manage.py rebuild_index

索引文件使用

1.编写视图

我这边看了很多博客。基本都用的drf框架方式写的,django原生框架也比较简单方便

from haystack.query import SearchQuerySet
from haystack.inputs import AutoQuery
from myapp.models import MyModels
from django.core.paginator import Paginator


def custom_search_view(request):
    q = request.GET.get("q", "")
    p = int(request.GET.get('p', 1))
    if q:
        sqs = SearchQuerySet().filter(text=AutoQuery(q)).models(MyModels).order_by('username')
    else:
        sqs = SearchQuerySet().all().models(MyModels).order_by('username')
    paginator = Paginator(sqs, 100)
    page = paginator.page(p)
    context = {
        "page": page
    }
    return render(request, "custom_search_template.html", context)

django模板
因为这里有的模型类已经把is_put=False,但索引建立了。还是能搜出来,代码再走到前面定义的index_queryset方法时,会返回一个空。这边也没有再往索引里加入is_put字段去filter了。所以做了一个这样的判断。

{% for item in page.object_list %}
    {% if item.object.is_put %}
    <tr>
        <td><p>{{ item.object.username }}</p></td>
        <td><p>{{ item.object.age }}</p></td>
    </tr>
    {% endif %}
{% endfor %}