欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

全面解读垂直搜索引擎_PHP

程序员文章站 2022-06-09 21:10:21
...
  1、垂直搜索引擎不是什么?

  垂直搜索不只是类google的行业通用搜索。以房产行业为例,如果我们按照google抓取网页的方式,来建造一个房产行业google的做法,是行不通的。技术壁垒不用解释,就算我们借助nutch,lucene等搜索技术来做,我们也无法提供差异化的服务,而没有差异化的产品在互联网赢家通吃的规则下是无法生存的,就是不要简单地模仿,而要想办法形成互补。

  垂直搜索和目前的google,baidu等通用搜索从定位,内容,用户,市场策略等都是不同的。所以垂直搜索不只是简单的行业google。

  用户使用google,baidu等通用搜索引擎的方式是通过关键字的方式实现的,是语义上的搜索,返回的结果倾向于知识成果,比如文章,论文,新闻等;垂直搜索也是提供关键字来进行搜索的,但被放到了一个行业知识的上下文中,返回的结果更倾向于信息,消息,条目等。对买房的人讲,他希望找的房子供求信息和文章,新闻等不同。这个特性是他们各自的的技术特点决定的。打个比方,如果google搜索引擎是一个正金字塔型,那么垂直搜索引擎就是个倒金字塔型,两者是互补的。

  2、垂直搜索是什么?

  我认为:垂直搜索的本质是对垂直门户信息提供方式的一次简化性的整合。

  搜索领域有句明言:就是用户无法描述道他要找什么,除非让他看到想找的东西,这个过程有点像找对象,碰运气是用户搜索行为的最大的特征。而垂直搜索引擎就是提高为用户提供更好的运气。

  垂直搜索是服务于某项功能的,比如:用户搜索租房,买房信息就是一种垂直搜索。对信息的再加工处理是非常关键的,不管是结构化的数据,还是非结构化的数据。

  3、垂直搜索的内容来源:

  A门户网站自身的资源

  B以开放接口方式让行业用户提供的资源

  C普通用户发布的资源

  D抓取行业用户的资源

  微软亚洲研究院负责搜索的一名技术专家说:75%的内容通用搜索引擎搜索不出来。这里面包含2层含义:

  (1)网站结构不合理,网页对搜索引擎不友好;

  (2)由于信息在互联网是海量的,非结构化的信息需要经过结构化的梳理后才能更好的展现。 如果梳理者能提供搜索,那样会更好。而垂直门户网站就是行业信息最好的梳理者。 垂直搜索引擎提供的主要内容不应该局限于普通的网页索引,而且包括商业信息的加工,结构化的信息。

  4、进入垂直搜索的门槛在那里?

  在互联网上说门槛,就是比资源。垂直搜索也是这样,能否提供全面权威的行业信息,能否拥有行业资源是垂直搜索引擎发展的门槛。换句化说,垂直门户是垂直搜索血统最近的父亲。作为房产行业的搜房网就是一个垂直门户,在房产领域没有谁比我们更清楚什么是垂直搜索了。

  垂直搜索的难点不是技术,而是用户参与门户网站行为的创新和垂直门户网站对产业上下游信息资源的整合。

  5、垂直搜索的特点:

  (1)、搜索是一个产业商业联盟的平台,一个集成产业链的上下游公司的搜索门户。

  (2)、垂直搜索的表现方式和google,baidu的表现方式不同,结构化的搜索和非结构化搜索并用。

  (3)、从广告模式上 提供了除 google adsense 和 百度竞价排名广告 之外的另一种可能。

  6、垂直搜索引擎的三个特点:

  (1)、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:

  比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等;

  股票搜索引擎 www.macd.cn 的数据来源于: www.jrj.com.cn , www.gutx.com 等股票站点;

  (2)、垂直搜索引擎抓取的数据倾向于结构化数据和元数据:

  比如:我们找工作关注的:

  职位信息: 软件工程师;

  公司名称,行业名称:软件公司,外包行业等;

  地点:北京,海淀;

  (3)、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索:

  比如: 找:海淀 软件工程师 的工作等。

  7、垂直搜索引擎站点的8条准则:

  (1)、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和

  Yahoo,Google等通用搜索的的抓取方向重叠。

  目前热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点;

  (2)、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况:

  我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。

  (3)、深入分析垂直搜索引擎的索引数据特点:

  垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁

  垒太高,很可能出师未杰身先死。

  (4)、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于yahoo,google等通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业 ,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。

  (5)、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时。

  (6)、垂直搜索引擎的web 2.0 需求:

  垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积

  分等机制,使搜索结果更加“垂直”。

  (7)、垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎一样发现信息:

  这一点是垂直搜索引擎的终极目标。 在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是

  让用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途径是一个关键部分。

  (8)、垂直搜索引擎的社区化特征:

  这一条和第9条是相关的。

  俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。现在做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合。