django+haystack+elasticsearch优化查询效率
django+haystack+elasticsearch优化查询效率
背景
主要就是这边有一个几千万数据的表存在mysql里,临时需要做一个对n个字段的模糊查询,之前考虑了挺多办法,like查询太慢 加了索引也只能’xxx%‘查询,其他两种’%xxx’或’%xxx%'就索引失效,会走mysql全表扫描。之前也做了mysql的全文索引,结果也不尽人意。最后选择了搜索引擎来做模糊查询的优化;
看了网上很多的blog,基本都是复制粘贴,看的我头都大了。于是自己闲着没事也写一篇吧;
说一句题外话,之前有用过Whoosh + jieba分词的时候处理。但是发现结巴分词分的粒度不够小。例如一个title。只能分成几个词、几个字这种。如果单纯搜title里的其中一个字不一定能搜出来。也可能是我姿势不对。
最后用的elasticsearch,elasticsearch自带的分词,粒度就非常小。基本穷举了所有可能。例如title是
“elasticsearch优化查询效率” 可能就切分成了[“elasticsearch”, “优”, “化”, “查”, “询”, “效”, “率”, “优化”, “查询”, “效率”, “优化查询”, ···,“elasticsearch优化查询效率”],n种可能。用户使用起来体验会比较好;
安装环境
// 环境安装,这里就直接放了我的环境安装的版本吧。
pip install django-haystack==2.8.1
// 这里python安装的elasticsearch必须要比本机上安装的elasticsearch应用程序版本低。(我这边安装的2.4.6版本的应用程序)
pip install elasticsearch==2.4.1
配置
1.在settings中的配置
'''注册app '''
INSTALLED_APPS = [
'django.contrib.admin',
'django.contrib.auth',
'django.contrib.contenttypes',
'django.contrib.sessions',
'django.contrib.messages',
'django.contrib.staticfiles',
# haystack要放在应用的上面
'haystack',
'myapp', # 这个jsapp是自己创建的app
]
······
# Haystack接入Elasticsearch
HAYSTACK_CONNECTIONS = {
'default': {
'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine',
'URL': 'http://127.0.0.1:9200/', # Elasticsearch服务器ip地址,端口号固定为9200
'INDEX_NAME': 'zzzztop',
},
}
# 这俩个配置就是属于后期配置了
# 当添加、修改、删除数据时,自动生成索引
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor' # 索引自动更新
# 用于决定每页显示数据条数:
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 100
2.在子应用下创建索引文件
在子应用的目录下,创建一个名为 myapp/search_indexes.py 的文件
from haystack import indexes
from myapp.models import MyModels
# 类名为模型类的名称+Index(可以任意命名)
class MyModelsIndex(indexes.SearchIndex, indexes.Indexable):
# text为索引字段
# document = True,这代表haystack和搜索引擎将使用此字段的内容作为索引进行检索
# use_template=True 指定根据表中的那些字段建立索引文件的说明放在一个文件中
# 设定之后假如你在索引模板文件里放了{{ object.username }}\n{{ object.age }}
# 那么你的text就会生成为例如 李华 21
text = indexes.CharField(document=True, use_template=True)
# username是添加的额外字段,如果添加了那么在生成索引的时候也会把username对应的值存入索引
# 但具体存不存入上面的text里要看索引模板文件里放了什么
username = indexes.CharField(model_attr='username')
# 对那张表进行查询
# 重载get_model方法,必须要有!(具体详情可以去看haystack的源码 这里不展开说了)
def get_model(self):
# 返回这个model
return MyModels
# 建立索引的数据
def index_queryset(self, using=None):
# 这个方法返回什么内容,最终就会对那些方法建立索引,这里是对所有字段建立索引
return self.get_model().objects.filter(is_put=True)
3.指定索引模板文件
创建文件路径命名必须这个规范:templates/search/indexes/应用名称/模型类名称_text.txt
例如:templates/search/indexes/myapp/mymodels_text.txt
{{ object.username }}
{{ object.age }}
4.使用命令创建索引
// 这里创建索引时要确保索引类创建好,且索引模板路径正常,elasticsearch应用程序正常运行
python manage.py rebuild_index
索引文件使用
1.编写视图
我这边看了很多博客。基本都用的drf框架方式写的,django原生框架也比较简单方便
from haystack.query import SearchQuerySet
from haystack.inputs import AutoQuery
from myapp.models import MyModels
from django.core.paginator import Paginator
def custom_search_view(request):
q = request.GET.get("q", "")
p = int(request.GET.get('p', 1))
if q:
sqs = SearchQuerySet().filter(text=AutoQuery(q)).models(MyModels).order_by('username')
else:
sqs = SearchQuerySet().all().models(MyModels).order_by('username')
paginator = Paginator(sqs, 100)
page = paginator.page(p)
context = {
"page": page
}
return render(request, "custom_search_template.html", context)
django模板
因为这里有的模型类已经把is_put=False,但索引建立了。还是能搜出来,代码再走到前面定义的index_queryset方法时,会返回一个空。这边也没有再往索引里加入is_put字段去filter了。所以做了一个这样的判断。
{% for item in page.object_list %}
{% if item.object.is_put %}
<tr>
<td><p>{{ item.object.username }}</p></td>
<td><p>{{ item.object.age }}</p></td>
</tr>
{% endif %}
{% endfor %}
上一篇: 指针知识