在论坛中出现的各种疑难问题：模糊匹配问题

程序员文章站 2022-06-14 10:42:11

...

关于2个表模糊搜索匹配的问题，现已找到较快的解决方法，速度提升到每秒5条记录左右，而且不占CPU，不占内存，方法如下： ------------------------------------------------------------------------- 环境：有2个表，表1：MainTable (现有记录数在10万条

关于2个表模糊搜索匹配的问题，现已找到较快的解决方法，速度提升到每秒5条记录左右，而且不占CPU，不占内存，方法如下：
-------------------------------------------------------------------------
环境：
有2个表，
表1：MainTable (现有记录数在10万条左右)
字段：
id bigint自动编号
Title nvarchar(30)
SubId nvarchar(max)

表MainTable：
Id Title SubId
1 A 0
2 B 0
3 C 0
4 D 0
5 E 0
6 F 0

表2：SubTable （现有记录数在300万条左右）
字段：
id bigint自动编号
Description nvarchar(100)
Fl int '默认值为0，当进行模糊匹配后，值改为1

表SubTable：
Id Description Fl
1 ABC 0
2 AB 0
3 CD 0
4 EA 0

二、需要实现的结果为：
表MainTable：
Id Title SubId
1 A 0,1,2,4
2 B 0,1,2
3 C 0,1,3
4 D 0,3
5 E 0,4
6 F Null

第6条记录由于没有匹配的值，所以改为Null
-------------------------------------------------------------------------

1、由于记录数太多，通过内部存储搜索速度太慢，中途不能暂停，平均每分钟才能处理5条记录左右；
2、原先通过外部循环的方法处理，速度1秒1条左右，会比方法1速度快，但非常占CPU；

现在的办法：
用VBS编写，定义2个数组，IDArray()和DescriptionArray()分别用于存储在SubTable表检索到的ID集和Description集

1、MainTable用循环的方式，按字段Title升序的方式得取Title字段的值，
先取得第一条记录的Title字段的第一个字符，根据这个字符模糊匹配SubTable的Description字段，并将检索到的结果存放在数组IDArray和DescriptionArray()中。
2、通过循环方式，将MainTable表的当前记录的Title字段的完整值与DescriptionArray()的值进行匹配处理，并update。

3、获取MainTable的下一条记录，判断该条记录Title字段的第一个字符是否与上一条记录的Title的第一个字符相同，如果相同，则从第2步开始处理；如果不同，则从第1步开始处理。

------------------------------------------------------------------------------
这种方法减少了每次去SubTable模糊搜索的次数，如果Title字段的第一个字符相同的记录非常多的情况下，速度还可能会提高很多。

总结一下，这个问题的解决不是通过sql server，而是在vbs，通过运用数据本身的特性，也就是：Title字段的第一个字符相同的记录非常多，减少了重复的劳动，少做了很多的无用功，最后，大幅提升性能。

真的是好办法，其实，从这个例子中可以看出，优化，更重要的是强调思维，而不简单的是某个技术，注重细节，仔细分析，楼主就解决了这个优化问题。

相关标签：论坛出现各种疑难问题模糊匹配问题关于 2个模

上一篇： windows停 php 导出数据到EXCEL表中

下一篇：请教高手们一个PHP的问题,挺纠结

在论坛中出现的各种疑难问题：模糊匹配问题

在论坛中出现的各种疑难问题：模糊匹配问题

在论坛中出现的各种疑难问题：模糊匹配问题

在论坛中出现的各种疑难问题：备份还原问题