软件说明
一、数据网关 数据网关:内容源数据库的支持(目前仅限于MYSQL、MSSQL、ORACLE、TRS等)Doc、TXT、PDF等非结构化文档。 二、UST智能搜索引擎及后台管理系统 后台管理:配置维护检索系统相关参数,性能调优。 分词模块:实现多粒度中文分词功能。 索引模块:提供增量索引、重建索引等功能。 摘要模块:根据文档及其分词结果,生成相关数据供摘要系统使用。 检索服务:根据检索词,检索出相关文档。 检索代理:搜索系统入口,负责调度检索、摘要、快照、意图识别、拼音纠错等模块协同工作。 排重模块:根据文档内容排重,算出相似文档。 词典维护模块:扩展行业词典。 分类模块:搜索结果自动分类,并可以按照分类再次检索。 聚类模块:搜索结果自动聚类。 人工影响排序:搜索结果排序可以人工干预。 Cache模块:根据搜索引擎相关规律,利用缓存减少计算以及硬盘IO量,提高系统性能。 系统群集服务:针对海量数据做检索服务器的群集功能。 三、前台应用服务系统 字段搜索服务:在检索多个字段时按照字段进行搜索。 短语、词组服务:在搜索词中可以输入短语和词组。 多条件组合服务:按照元数据的多条件进行组合减速如时间,作者,名词+关键字等。 快照服务:提供呈现文档原内容的接口。 相关搜索服务:根据用户输入搜索串,向用户推荐相关搜索串。 智能搜索提醒:在输入搜索词时,自动提醒相关搜索词。 拼音纠错服务:在搜索中国时,使用拼音zongguo,系统会自动提示你搜索的可能是zhongguo。 热词模块:自动记录系统搜索词,按照规则取得搜索热度较高的词供系统调用。 相关性呈现服务:搜索结果的相关新闻只显示更新的一条,其他相关新闻通过页面的相应功能查看。 技术优势 外网搜索引擎:众多内容型网站为了保持数据的更新,不得不花费大量的人力进行内容更新。紫新报通智能搜索引擎系统系统可以锁定需要的网站,进行定时采集此网站的更新内容;可以节省大量的人力成本,而且可以保证信息的全面性,同时结合搜索技术在海量的信息库中快速找到需要的信息。 高应用扩展性:可以根据用户需求快速配置成为不同类型的垂直搜索引擎,如成为商机搜索、产品信息及其他各类需要的信息。只需普通技术人员便可以实现。