大数据服务创业公司Connotate——Web数据抽取工具Agent
Connotate是一家为美联社、路透社、道琼斯等大型公司对全球上千个网站的非结构化数据进行实时分类和分析的公司。
Web数据监测软件提供商Connotate公司的董事长瑞恩穆赫兰道补充说:“提取信息的时间减少了,用来思考如何制定相应计划的时间增多了,决策的正确性自然就上升了。例如,作为我公司的董事长,我不但可以从我们的销售周期上看到我们产品的销售趋势,同时还可以知道这样的销售趋势对我们的业务将会有什么样的影响,然后我就可以快速、有效的决定公司未来的发展策略。”
产品功能:
Connotate利用机器学习自动生成的高效代码和辅助配置,其数据抽取的工具称为Agent。
在Agents的指引下,用户能精准地获得需要的信息—Connotate在过滤了广告和无关信息的同时,将非结构化数据转化成为支持业务流程的可读性数据。
Connotate的解决方案相比于网页脚本工具要优越得多,由于网站格式不断变化,修整是一项很重要的工程,Connotate的解决方案具有较强的适用性。
各网站都在不断地更新。优化解决方案,不但是为了精准地检测网页内容的变化,而且是为了更有效率地提高推送信息。过滤垃圾信息和删除重复数据可使工作流取得更大成效.
部署选项
Connotate能够满足用户的业务之需,并且适应今后的发展和变化。而且,Connotate能够提供灵活实用的解决方案以满足用户具体的业务需求。
实地部署Connotate
在我们点击式的控制界面的帮助下,即使不是专业的技术人员,也可以轻松快捷的对各大网站进行数据监控和抽龋
在一到两个课程的学习中,用户可以熟练地创建Agents。
即使不是专业的技术人员,也可以成功访问上千家网站
Connotate的工作安排表给用户带来了方便
当网站停止运行或其他方式无法返回数据时,Agents会及时警报通知
数据传输功能的设置简易
Connotate实地部署的解决方案能够以独特的视觉抽象技术,即使是非专业的开发人员也可以迅速地设置新网站的监控系统,而且进行快速大规模的部署。
Connotate的方案还支持把SOAP与REST Web Services APIs集成到工作流中,也可以快速创建任何兼容开放数据库连接(ODBC)的数据库,包括SQL服务器、MySQL、Oracle等。
Connotate 实地部署是用户理想选择:用户可以建立自己的应用程序,并根据自己的喜好将集成到工作流中,创建数据收集功能,方便用户管理整个公司或者具体的某个部门。
Connotate服务器托管解决方案
基于数据中心,Connotat能够为用户提供服务器托管的解决方案,根据用户在日程或者在交易基础上的要求,推送数据。
不用进入计算机系统就可以迅速部署和整合数据。
Connotate多年的团队专业服务经验,为用户完成大规模的布置任务和方案优化。
服务等级协议(SLAs)与全天候的服务支持
对于一些企业或者部门来说,若没有时间从头到尾跟进一项目,或者把IT技术互动到使用计算机资源中去,此时, Connotate 服务器托管方案是用户理想的选择。
用户可以通过Connotate的解决方案选择恰当的网站和工作,降低平均成本,缩短上市时间。
Connotate的解决方案为可以将非结构化数据转换为结构化数据并推送给用户,而且还可以导入到分析应用程序中,大大简化了工作,使用户能够更好更快地做出战略决策。
不受网站格式变化影响,可视化抽取&只需要用着重色标记就可以改变监测。
创新特点:
下表总结了传统编程方案和Connotate混合型的解决方案的区别。
(1)
(2)
(3)三种数据挖掘方式的比较:
运行情况:
多个服务器组合主要是为了能够更好的发挥出Connotate的厉害之处和更好的为用户提供信息服务。
一台服务器用于对接Connotate的数据库,一台服务器用于对接Web,另外一台服务器是用于数据处理,这三个过程是相互联系相互制约的。
建议的服务器配置如下:
数据库服务器(数据抽取的关键)
2GHz双四核以上的处理器
32GB以上的内存
操作系统-146 GBSCSI 驱动 (RAID-1)
结构化数据库&数据:450GBSCSI 驱动(RAID-10)
Web服务器
2GHz双四核以上的处理器
8GB以上的内存
146 GB SCSI 驱动 (RAID-1)
处理服务器
2GHz双四核以上的处理器
8GB以上的内存
146 GB SCSI 驱动 (RAID-1)
Connotate的部分用户列表:
a、 Connotate在公共资源中抽取数据,为某美国州*部门推送简洁几近实时的信息,为其研究调查工作做出了不可磨灭的贡献。
b、FactSet利用Connotate在世界各地的成千上百个网站中收集数据,并向其金融行业的用户推送数据,支持他们更好地做出投资决策。FactSet的客户要求数据是精准、实时和完整的。使FactSet无需增加管理人员的数量的同时增加企业监控数量,能够访问到一些没有宽带的偏远地方的数据,方便快捷精准!
c、Connotate为美国某背景调查公司自动化抽取数据和监控数据,为用户大大提高效率,原来需要八小时的工作先在只需要6分钟。背景调查的次数每年增加62%,但是费用却减少$150,000,大大提高效率提供优质的数据,收入增加了至少2.5倍。
d、Connotate自动化监控和抽取管理条例的变化数据,以避免经济处罚。Connotate为MassHousing监控住房和城市发展部的管理条例的变化,捕捉到最新管理条例带来的机遇。
e、Connotate为某人力资源服务商持续的自动化监控1000多个网络资源,大大提高发布职位的精准度。
f、Connotate的自动化方案大大减少了数据抽取的周期时间,为某医疗设备企业原来需要八小时完成的工作现在只需要六分钟。
g、 Connotate为华尔街一家投资机构使用户对市场部门个体股票的微小动态都了如指掌,获得支持买方购买的可行性洞察,提供了产品价格、库存情况、广告话费、转换率、订单情况和其他重要的非结构化数据信息,而这些数据(用其他工具)是很难抽取的但是却是很有分析价值的。
h、Connotate为一家提供生化有机化学产品的企业Sigma-Aldrich,提供精准的动态的价格信息, 确保其为187,000多个产品更好地做出优化和定位。
i、 Connotate为某礼品和家居设计批发企业监控了90家零售商的网站,通过消费者的购物车记录预计其交易,以抽取可获得的库存信息和价格信息。
j、无需人工干预,90%的Web数据都是Connotate帮助抽取的。而且Connotate还能实现把非结构化数据转换为结构化数据,与后台的引擎系统对接,如Salesforce。Connotate在某数据发行商的应用。
k、 一前50强的产品公司Luminoso利用Connotate在社交网站youtube中发现消费者对新产品的态度,以帮助他们做出更好的决策和提高。
l、Connotate为美联社从各个目标网站上收集聚合信息,并转换为可用的数据格式。
实战效益:
a、全面,自动全天候抽取相关网站的内容,新闻、门户、论坛、微博(新浪、腾讯)
b、高效,大大减少了数据抽取需要的时间,又提高了精准度,避免了人工干预带来的难以发现的错误。
c、低成本,无需专业的技术人员,普通职员也可以进行操作,减少了人工成本。
d、发现洞察,及时发现并解决问题,大大有利于决策的制定和维护社会稳定和促进和平。
e、毫无保留地导入到数据仓库中,把关注的网络数据转换为自己私有的数据库。为*部门维稳促和发挥至关重要的作用。
f、适用性,不受网站格式变化的影响,无需编写代码,维护费用几乎为0.
End.