最新消息
简介
特性
关于我们
邮件列表
所获奖项new
 
开始使用
FAQ
检索语法
索引文件格式
文档
论坛
 
程序&源代码
插件
相关资料
学术论文new
 
中科院计算所
学术讲座
搜索论坛
中科计算技术转移中心
CnPack开发网站
 
您现在的位置:首页 > 简介 > 正文
 

简介

 

最后修改:2006-10-05

 
目录

从这里可以获取有关FirteX编译,安装和使用的基本信息。

  1. 什么是FirteX?
  2. FirteX可以用来做什么?
  3. 如何使用FirteX?
  4. FirteX有什么功能?
  5. FirteX的性能如何?
  6. FirteX是用什么语言实现的?支持哪些平台?
 
简介

  1. 什么是FirteX
  2. FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台。 FirteX 的主要目标是研究文本索引的快速构建 (Index Construction) ,动态文档集的索引维护 (Index Maintenance) ,短语查询 (Phrase Query),Top-k 查询的快速处理 (Top-k Query Process) 以及各种检索模型( IR Model )等。高性能和灵活的架构也使 FirteX 可以应用在产品搜索,桌面搜索,站内搜索,新闻搜索, Blog 搜索,学术搜索以及大规模搜索引擎等领域中。

    FirteX也是一个非常灵活的全文索引和检索框架,框架的各个功能模块可单独替换或升级,可以方便地添加各种索引算法,检索模型等,也可以通过插件增加新的文档格式和语言支持。FirteX同时还是一个文本处理框架,可以扩展实现分类、聚类,文档摘要等实验,而省去文档格式解析,文本分析(例如中文分词)等文本处理的额外工作。

  3. FirteX可以用来做什么?
  4. 搭建实验平台:在信息检索领域,迫切需要一个支持大规模数据的、灵活的、健壮的、易扩展的实验平台。在国际上,这类检索实验平台有很多,但绝大多数平台支持的实验有限,往往仅关注某些方面的实验,系统架构不够灵活,很多其他方面的实验无法开展。例如著名的Lemur实验平台仅关注检索模型等检索效果方面的实验,而检索效率方面的实验不好扩展。此外,这些平台对中文的支持不够好,没有考虑中文的特殊性。FirteX是国内第一个开源的信息检索实验平台,考虑了多种实验需求,例如中文分词、索引数据结构研究、索引算法和方案研究、检索模型、查询反馈、检索Cache等,不仅支持检索效果方面的研究同时还支持检索效率方面的实验,架构非常灵活,也可以扩展实现其他的一些文本处理实验,例如文本分类聚类等。

    搭建搜索应用: 搜索引擎在日常生活中起着越来越重要的作用,垂直搜索大量涌现,包括产品搜索,新闻搜索, MP3 搜索,图片搜索,生活搜索,农业搜索,医学搜索, BBS社区搜索, Blog搜索等等;另一方面,磁盘容量越来越大,本地数据的管理和搜索也日益重要,文件系统搜索和桌面搜索也发展迅速。所有这些搜索应用都有两个共同特征: 1 、数据量不会太大(相对于公众搜索引擎), 2 、数据更新非常快。这些应用都有各自的特定的应用场景和需求,但基本都遵循同样的工作流程:

    搜索工作流程图

    FirteX是一个高性能、开放式的二次开发平台,可以应用在上述各个搜索应用中。

  5. 如何使用FirteX?
  6. 简单使用:FirteX提供了丰富的功能,支持多种文档格式和文档集类型,采用了XML格式的系统配置文件,可配置内容包括索引内存使用量,索引文件数目、大小控制,索引合并控制,数据集元数据定义及其索引存储方案定义等,可以根据数据集和机器配置情况,灵活配置整个系统,无需编写代码。所有这些功能和配置均可通过FirteX提供的Windows界面的示例应用程序Fxist和命令行模式的fxist4c示例应用程序完成。

    信息检索实验:FirteX支持TREC文档集,可以直接使用TREC数据进行索引和检索实验,作为参加TREC评测的实验平台;提供了向量空间检索模型(其他检索模型正在添加中),提供了3种前向索引方式;提供了中文快速分词;对于索引文件,提供了多种访问方式,包括索引检索,倒排文档数据直接访问等,可以扩展实现检索之外的一些实验。

    二次开发:FirteX是一个架构灵活、易扩展的开发平台,可以进行二次开发应用在产品搜索,新闻搜索, MP3 搜索,图片搜索,生活搜索,桌面搜索,医学搜索, BBS社区搜索, Blog搜索等应用领域中。扩展既可以在源代码上直接进行,也可以通过COM组件扩展。

    加入FirteX开发团队:FirteX是一个开源搜索平台,您的参与一定会使FirteX更加精彩。参与开发请登陆在SourceForge.net上的[FirteX's Project Page]

    更多使用信息请参见[开始使用FirteX]。

  7. FirteX有什么功能?
  8. 全文索引功能:支持中文( GB2312 , GBK )、英文快速索引;增量索引;索引文档删除;多字段索引;支持纯文本, HTML , PDF 文档格式;支持文档列表、文档目录, TREC 等形式的文档库,也支持 FirteX 自定义文档库;支持前向最大匹配中文分词,支持日期字段索引;同一文档各字段可以使用不同的内容分析器 (Analyzer) ;三种方式前向索引;支持索引内存使用量控制;

    全文检索:支持布尔查询( AND 、 OR 、 NOT 任意组合);支持短语检索;支持向量空间模型计算文档相关性;支持对特定查询、字段和文档设置 boost 值;支持跨字段检索、日期范围检索,检索结果按任意指定字段排序(例如按时间排序)、检索结果按任意要求过滤(例如按时间范围过滤);支持完全内存检索;

    其他:程序 log 功能,可以将 log 信息输出到控制台,文件中,或任何其他的设备;支持编译时 log ,分级 log ( fatal , error , debug , warning , info 等级别);支持 XML 系统配置文件,通过 XML 配置文件即可配置整个系统;支持 Schema 自定义文档集格式;支持跨平台 COM 组件插件, HTML 文档格式解析 COM 插件, PDF 文档格式解析 COM 插件;开发了 Fxist - FirteX Index/Search Toolbox 这个 Windows 用户界面的索引维护工具。

    更详细的功能列表参见[FirteX特性]。

  9. FirteX的性能如何?
  10. FirteX 设计成可以处理大规模数据,具有较高的性能,在单台 Pentium 4 2.8G 2GRAM 的机器上超过 200Mb 每分钟的纯文本索引速度,建立索引后在近 100G 的网页上搜索,能在数毫秒内返回结果。

    更详细的性能测试参见[性能测试]。

  11. FirteX是用什么语言实现的?支持哪些平台?
  12. FirteX采用C++实现,目前支持的平台是Windows系列操作系统(Windows 2000/XP/2003)和Linux系列操作系统(Red Hat Enterprise Linux 4/Read Hat Linux 9)。

    关于FirteX的编译和安装参见[FirteX编译和安装]

 
软件许可证|BUG报告|联系我们

Copyright (c) 2005-2006 版权所有 中科院计算所智能软件部

SourceForge.net Logo
查看在SourceForge.net上的FirteX's Project Page