Java 全文本搜索引擎工具

news/2024/12/27 19:41:01 标签: 搜索引擎, java, powerpoint, lucene, javabeans, microsoft

Egothor   点击次数:10000

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

Nutch   点击次数:13225

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Lucene   点击次数:16817

Apache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。

Oxyus   点击次数:8694

是一个纯java写的web搜索引擎

BDDBot   点击次数:7831

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

Zilverline   点击次数:8484

Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。

XQEngine   点击次数:7235

XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合.有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.

MG4J   点击次数:7054

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术.

JXTA Search   点击次数:7694

JXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上.

YaCy   点击次数:7283

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.

Red-Piranha   点击次数:7753

Red-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等.

LIUS   点击次数:7749

LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如:
Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如:Hibernate,JDO,Torque,TopLink进行开发时。

Aperture   点击次数:7380

Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如下:

  • Plain text
  • HTML, XHTML
  • XML
  • PDF (Portable Document Format)
  • RTF (Rich Text Format)
  • Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher
  • Microsoft Works
  • OpenOffice 1.x: Writer, Calc, Impress, Draw
  • StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw
  • OpenDocument (OpenOffice 2.x, StarOffice 8.x)
  • Corel WordPerfect, Quattro, Presentations
  • Emails (.eml files)

http://www.niftyadmin.cn/n/748913.html

相关文章

细数软件工程各阶段必不可少的那些图

作者:薛勤 主页:https://github.com/yueshutong 本文使用 BlogHelper 一键发布本地文章带本地图片到博客平台。 一、前言 小说搜索 https://198200.com 软件工程中规定,软件生命周期由软件定义、软件开发和运行维护(也称为软件维…

Java编程应该了解的事 - 设计模式、软件工程、项目管理

设计模式: 我们不难发现世间万物的发展基本都有一个起决定性作用的起始点。比如,基因会决定一个人的某些特质;本质决定现象;领导决定一个组织的发展。其实,就是本质。而编程思想的本质是什么呢?换句话说&a…

源码详解系列(七) ------ 全面讲解logback的使用和源码

什么是logback 热血小说 https://m.v1122.com logback 用于日志记录,可以将日志输出到控制台、文件、数据库和邮件等,相比其它所有的日志系统,logback 更快并且更小,包含了许多独特并且有用的特性。 logback 被分成三个不同的模…

JSPServlet - MVC2

这个图来源于Jsp&Servlet 核心编程那本书,稍微作了修改。理解了这个图基本就对Java项目开发入门了。 Browser 浏览器 Controller 控制器 Model 模型 View 视图 Web Container Web容器 Application Servier 应用程序服务器 VO(View Object) 视图对象 VO(V…

《前端之路》--- 重温 Koa2

目录 一、简单介绍二、 路由三、请求数据四、 静态资源加载五、 Koa2 使用 cookie/session六、 koa2加载模板引擎七、 koa2 中简单使用 mysql 数据库八、 koa2 中使用单元检测九、 node 服务端开发过程中的 开发 debug 方式十、总结一、简单介绍不格小说网 m.vbuge.com 1.1、快…

[W]和[V]的发音

V发音嘴型和F 一样,上齿轻抵下唇,W发音如中文的:我 W发音时,嘴成圆形,嘴唇隆起,(类似中文“喔”字);V发音时,要用上牙齿轻轻咬住下嘴唇的一半,然…

[i:]和[i]发音

其实在国际音标中 [ i ] 正确读音不是“衣”,简单说就是:“衣”这个音是在口腔的前半部发音,口型很随意,而发 [ i ]是先将口稍微张开成“一”字形,上下牙齿也稍稍张开,舌头随意地平放,最后把发“…

C#中Equals和GetHashCode

Equals和GetHashCode清风小说 www.198200.com Equals每个实现都必须遵循以下约定: 自反性(Reflexive): x.equals(x)必须返回true.对称性(Symmetric): x.equals(y)为true时,y.equals(x)也为true.传递性(Transitive): 对于任何非null的应用值x,y和z,如果x.equals(y)返回true,并且…