【全文检索】Centos 6.5下使用Sphinx更好地进行MySQL搜索
程序员文章站
2022-07-01 15:28:52
...
wangking717写道
最近我的网站搜索功能变慢了,后来才发现是MySQL的LIKE来进行模糊查询引发的性能问题。
这个时候就需要用到Sphinx,我这里安装coreseek中文检索引擎,配置MySQL数据库访问接口,使用PHP程序实现中文检索。
这个时候就需要用到Sphinx,我这里安装coreseek中文检索引擎,配置MySQL数据库访问接口,使用PHP程序实现中文检索。
1、安装编译工具
yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel
2、下载coreseek并且安装mmseg中文分词
下载http://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz 到 /usr/local/src/
cd /usr/local/src
tar zxvf coreseek-3.2.14.tar.gz #解压
cd coreseek-3.2.14
cd mmseg-3.2.14
./bootstrap #输出的warning信息可以忽略,如果出现error则需要解决
./configure --prefix=/usr/local/mmseg3 #配置
make #编译
make install #安装
3、安装coreseek
cd /usr/local/src
cd coreseek-3.2.14
cd csft-3.2.14
sh buildconf.sh #输出的warning信息可以忽略,如果出现error则需要解决
./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql #配置
make #编译
make install #安装
4、创建测试数据库(test数据库和student表)
CREATE DATABASE test DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
CREATE TABLE `student` (
`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT 'ID',
`student_name` varchar(100) DEFAULT NULL COMMENT '姓名',
PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=0 DEFAULT CHARSET=utf8 CHECKSUM=1 DELAY_KEY_WRITE=1 ROW_FORMAT=DYNAMIC;
INSERT INTO student (student_name) VALUES ('王琨');
INSERT INTO student (student_name) VALUES ('刘杰');
INSERT INTO student (student_name) VALUES ('王希');
INSERT INTO student (student_name) VALUES ('邓紫元');
5、对coreseek进行配置
cp /usr/local/src/coreseek-3.2.14/testpack/etc/csft_mysql.conf /usr/local/coreseek/etc/csft_mysql.conf #拷贝MySQL数据源配置文件
vim /usr/local/coreseek/etc/csft_mysql.conf
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
source mySource
{
type = mysql
sql_host = localhost
sql_user = root #账号
sql_pass =666666 #密码
sql_db = test #MySQL数据库名称
sql_port = 3306
sql_query_pre = SET NAMES utf8
sql_query = SELECT id, student_name FROM student #sql_query第一列id需为整数
#student_name作为字符串/文本字段,被全文索引
sql_query_info_pre = SET NAMES utf8 #命令行查询时,设置正确的字符集
sql_query_info = SELECT * FROM student WHERE id=$id #命令行查询时,从数据库读取原始数据信息
}
#index定义
index myIndex
{
source = mySource #对应的source名称
path = /usr/local/coreseek/var/data/my_index
docinfo = extern
mlock = 0
morphology = none
min_word_len = 1
html_strip = 0
#中文分词配置,详情请查看:http://www.coreseek.cn/products-install/coreseek_mmseg/
charset_dictpath = /usr/local/mmseg3/etc
charset_type = zh_cn.utf-8
}
#全局index定义
indexer
{
mem_limit = 1024M #内存使用限制
max_iops = 100
max_iosize = 0
}
#searchd服务定义
searchd
{
listen = 9312
read_timeout = 5
max_children = 30
max_matches = 1000
seamless_rotate = 0
preopen_indexes = 0
unlink_old = 1
pid_file = /usr/local/coreseek/var/log/searchd_mysql.pid
log =/usr/local/coreseek/var/log/searchd_mysql.log
query_log =/usr/local/coreseek/var/log/query_mysql.log
}
6、启动coreseek,建立索引
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf #后台启动模式
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all --rotate #建立索引服务
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf --stop #停止
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all --rotate #更新索引服务
7、使用PHP来测试全文中文检索
cp /usr/local/src/coreseek-3.2.14/testpack/api/sphinxapi.php /var/www/html/sphinxapi.php #把API拷贝到Apache根目录
cp /usr/local/src/coreseek-3.2.14/testpack/api/test_coreseek.php /var/www/html/test.php
cd /var/www/html/
vim test.php
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
<?php
//注意文件的编码格式需要保存为为UTF-8格式
require ( "sphinxapi.php" );
$cl = new SphinxClient ();
$cl->SetServer ( '127.0.0.1', 9312);
//以下设置用于返回数组形式的结果
$cl->SetArrayResult ( true );
/*
//ID的过滤
$cl->SetIDRange(3,4);
//sql_attr_uint等类型的属性字段,需要使用setFilter过滤,类似SQL的WHERE group_id=2
$cl->setFilter('group_id',array(2));
//sql_attr_uint等类型的属性字段,也可以设置过滤范围,类似SQL的WHERE group_id2>=6 AND group_id2<=8
$cl->SetFilterRange('group_id2',6,8);
*/
//取从头开始的前20条数据,0,20类似SQl语句的LIMIT 0,20
$cl->SetLimits(0,20);
//在做索引时,没有进行 sql_attr_类型 设置的字段,可以作为“搜索字符串”,进行全文搜索
$res = $cl->Query ( '搜索字符串', "*" ); //"*"表示在所有索引里面同时搜索,"索引名称(例如test或者test,test2)"则表示搜索指定的
//如果需要搜索指定全文字段的内容,可以使用扩展匹配模式:
//$cl->SetMatchMode(SPH_MATCH_EXTENDED);
//$res=cl->Query( '@title (测试)' , "*");
//$res=cl->Query( '@title (测试) @content ('网络')' , "*");
echo '<pre>';
print_r($res['matches']);
print_r($res);
print_r($cl->GetLastError());
print_r($cl->GetLastWarning());
echo '</pre>';
?>
最后访问http://localhost/test.php,就可以看到测试结果了。如果运行后,是空白的,则需要将防火墙关闭再去运行。
关闭防火墙:
1、关闭iptables
service iptables status #查看状态
service iptables stop
2、关闭selinux
/usr/bin/setstatus -v #查看状态
vim /etc/selinux/config
找到SELINUX 行修改成为:SELINUX=disabled
reboot #重启
文章参考:
1、http://www.coreseek.cn/
2、http://www.coreseek.cn/products-install/step_by_step/
3、http://www.coreseek.cn/products-install/mysql/
4、http://www.osyunwei.com/archives/7496.html
5、http://blog.csdn.net/e421083458/article/details/21529969