Apache Lucene

软件截图:
Apache Lucene
软件详细信息:
版本: 5.3.1 / 4.10.4 / 3.6.2 更新
上传日期: 10 Dec 15
许可: 免费
人气: 241

Rating: nan/5 (Total Votes: 0)

的Apache Lucene的适用于需要进行全文搜索支持的任何应用程序,同时保持服务器的资源消耗下降,生产快速和高精度的结果。

Lucene的被广泛认为是各地最好的搜索引擎之一,是在许多其他搜索工具的最核心,最有名的是 Apache Solr实现

Lucene是完全用Java编写的,自被释放由Apache基金会,它已经被移植到许多其他语言及各种绑定和包装存在的第三方开发的软件。

什么是此版本的新

  • 在所有文件的访问,现在使用Java的NIO.2 API的这给Lucene的强大安全指数在更好的错误处理条件和更安全的提交。
  • 在每一个细分的Lucene现在存储每个段和一个唯一的ID每个提交的索引文件的精确复制,以帮助。
  • 在合并过程中,的IndexWriter现在总是合并之前检查腐败传入段。这可能意味着,在升级到5.0.0,该合并可能会发现长期潜伏腐败的旧4.x的索引。

什么是新的版本5.2.1 / 4.10.4 / 3.6.2:

  • 在所有文件访问现在使用Java的NIO.2 API的这给Lucene的强大安全指数在更好的错误处理,更安全的提交方面。
  • 在每一个细分的Lucene现在存储每个段和一个唯一的ID每个提交的索引文件的精确复制,以帮助。
  • 在合并过程中,的IndexWriter现在总是合并之前检查腐败传入段。这可能意味着,在升级到5.0.0,该合并可能会发现长期潜伏腐败的旧4.x的索引。

什么是新的版本5.1.0 / 4.10.4 / 3.6.2:

  • 在所有文件访问现在使用Java的NIO.2 API的这给Lucene的强大安全指数在更好的错误处理,更安全的提交方面。
  • 在每一个细分的Lucene现在存储每个段和一个唯一的ID每个提交的索引文件的精确复制,以帮助。
  • 在合并过程中,的IndexWriter现在总是合并之前检查腐败传入段。这可能意味着,在升级到5.0.0,该合并可能会发现长期潜伏腐败的旧4.x的索引。

什么是新的版本5.0.0 / 4.9.3 / 3.6.2:

  • 在新条款.getMin /最大值的方法来每场检索的最低和最高术语
  • 新IDVersionPostingsFormat,该关联每个ID单调递增版本ID查找优化。
  • 在一组文档的原子更新值的字段。
  • 大量优化的DOC值搜索时的性能。
  • 新(默认)Lucene49NormsFormat更好地压缩某些情况下,如极短的领域。
  • 新SORTED_NUMERIC docvalues​​类型多值数字领域的高效处理。
  • 索引,便于重复使用通过前面的标识流。
  • MoreLikeThis每个字段接受多个值。
  • 在该估计其内存使用所有类现在实现一个新的负责任的接口。
  • 在Lucene的文件现在写的(文件)的OutputStream在所有平台上,完全禁止与简化的IO的API追求。
  • 改善混乱的错误消息,当MMapDirectory不能创建一个新的地图。

什么在4.8.0版本新

  • 在Lucene的有一个新的Rescorer / QueryRescorer API执行第二通rescoring或搜索结果中再排序使用第一通命中收集后更昂贵的计分函数。
  • AnalyzingInfixSuggester现在支持近乎实时的自动提示。
  • 简体影响排序帖子(使用SortingMergePolicy和EarlyTerminatingCollector)使用Lucene的排序类来表达排序。
  • 大量的得分和正常基于迭代器的得分分离,所以一些查询可以更有效地执行批量得分。
  • 切换到MurmurHash3索引中散列条款。
  • 的IndexWriter现在支持二进制文档值字段的更新。
  • HunspellStemFilter现在使用10到100倍较少的内存。它还加载了所有已知的OpenOffice字典没有错误。
  • 在Lucene的,现在也fsyncs在提交的目录元数据,如果操作系统和文件系统允许它(的Linux,MacOSX的是众所周知的工作)。
  • 在Lucene的,现在使用Java 7的文件系统功能的引擎盖下,所以索引文件可以在Windows中删除,即使读者仍然开放。
  • 在NativeFSLockFactory一个严重的错误是固定的,它可以允许多个IndexWriters获取相同的锁。锁定文件不再即使在锁不保持的索引目录中删除。

什么在4.7.0版本新

  • 在当前由字符串(SortField.STRING)排序,您现在可以指定缺失值是否应该进行排序第一个(默认),或最后。
  • 的文件系统支持NRT没有删除最后一次关闭或可以同时引用语义不能删除。
  • 新增LongBitSet管理超过2.1B位(以其它方式使用FixedBitSet)。
  • 添加了对库尔德人的分析。
  • 在增加有效载荷支持FileDictionary(推荐),并使其更可配置。
  • 添加了一个新Bl​​endedInfixSuggester,这就好比AnalyzingInfixSuggester,但提高了匹配令牌较低位置的建议。
  • 新增SimpleQueryParser:解析人类输入的查询
  • 新增multitermquery(通配符,前缀​​等),以PostingsHighlighter。

什么是4.6.0版本,新的

  • 在增加了对NumericDocValues​​现场更新支持(不重通过IndexWriter.updateNumericDocValue索引文件)(期限,字符串,长)。

  • 长尾"
  • 新FreeTextSuggester可以使用简单的ngram语言模型&QUOT有用的预测下一个单词;建议。
  • 在一个新的表达模块可定制的排名与脚本的语法。
  • 在一个新的DirectDocValues​​Format可以容纳所有的DOC值堆未压缩的Java本机阵列。
  • Term.hasFreqs现在可以确定,如果每个文档指定字段建立索引
  • 在长期的频率。

什么是4.5.0版本,新的

  • 在新的内存DocIdSet实现,它们是特别好比FixedBitSet小集:WAH8DocIdSet,PFORDeltaDocIdSet和EliasFanoDocIdSet
  • CachingWrapperFilter现在缓存滤波器WAH8DocIdSet通过默认设置,其具有相同的内存使用FixedBitSet在最坏的情况下,但更小且更快的小集。
  • TokenStreams现在设置的位置增量中端(),所以我们可以处理尾洞。
  • 的IndexWriter不再克隆给定的IndexWriterConfig。
  • 各种错误修正和优化,因为4.4版本。

什么是4.4.0版本,新的

  • 在新复制器模块:复制服务器之间的指数的修订和客户端。
  • 新AnalyzingInfixSuggester:发现的基础上匹配在建议的任何标记的建议,不只是基于纯粹的前缀匹配
  • 新PatternCaptureGroupTokenFilter:发射多个标记,一个用于在一个或多个Java正则表达式的每个捕获组
  • 新Lucene的小面模块。

什么是4.3.0版本,新的

  • 在新SearcherTaxonomyManager管理近乎实时的重新开放的无论是IndexSearcher和TaxonomyReader(用于小面)。
  • 在增加了新的方面的方法的方面模块来计算方面计数使用SortedSetDocValues​​Field,没有单独的分类指数。
  • 在显着的性能改善minShouldMatch BooleanQuery由于跳过从而更快高达4000%的查询。

  • 自从4.2.1发布
  • 各种错误修正和优化。

什么是4.1.0版本,新的

  • 在书面文件(所有领域Lucene的时候不再寻求都写在一个仅追加的方式)。这意味着它在默认情况下使用仅追加流,HDFS,等等。
  • 新建议的实现:AnalyzingSuggester,其中基础形式用于建议(从Lucene的分析计算)是分开的,返回的文本和FuzzySuggester,这还允许在输入不精确匹配
  • 在接近实时的支持,加入到面模块。
  • 新荧光笔(postingshighlighter)加到高亮模块。
  • 新增FilterStrategy到FilteredQuery在过滤查询执行更多的灵活性。
  • 新增CommonTermsQuery加快具有非常高频率方面查询。期限频率在查询时高效地检测 - 不需要准备指数时间

  • 自从4.0版本
  • 若干bug修正和优化。

什么版本4.0的alpha为新的

  • 在指数格式条款,张贴名单,存储领域,长期
  • 矢量等都是通过编解码器API可插拔。您可以从提供的实现选择或自定义索引格式用自己的编解码器,以满足您的需求。

  • 在搜索中使用过滤器时,
  • 在实质上更快的性能。
  • 基于文件系统的目录可以限速合并线程的IO(MB /秒),以减少合并和搜索线程之间的IO争用。
  • FuzzyQuery比以前的版本快100〜200倍。
  • 在一个新的拼写检查器,DirectSpellChecker,发现可能的修正
  • 直接针对无需单独的索引主搜索索引。

什么在3.6.0版本新

  • 在除了到Java 5和Java 6,这版本现已完整的Java 7的支持(最低要求JDK 7U1)。
  • TypeTokenFilter过滤器令牌基于自己的TypeAttribute。
  • 在突出过程中的一些CharFilters,断词和TokenFilters可能导致异常的固定偏移错误。
  • 添加语音编码器:音位,探测法,Caverphone,Beider莫尔斯等
  • CJKBigramFilter和CJKWidthFilter更换CJKTokenizer。
  • Kuromoji形态分析tokenizes日语文本,同时生产复合词和它们的分割。
  • 在静态指标修剪(卡梅尔修剪)删除的帖子,低中文档的词频。
  • 的QueryParser现在解释'*'作为一个开放的结束范围查询。
  • FieldValueFilter排除文件丢失指定的字段。
  • CheckIndex和IndexUpgrader允许您指定特定的FSDirectory实施新-dir-implement执行命令行选项来使用。
  • FSTS现在可以做反向查找(按产量)在某些情况下,可以进行包装,以减少它们的大小。现在有一种以检索在FST从一个起始节点前N最短路径的方法。
  • 新WFSTCompletionLookup suggester支持细粒度排名的建议。
  • FST基于suggesters现在使用脱机(基于磁盘)的排序,而不是在内存中的排序,当预分类的建议。
  • ToChildBlockJoinQuery在相反的方向加入(父向下到子文件)。
  • 新查询时加入更灵活(但不太高性能)比指数时加入。
  • 新增HTMLStripCharFilter剥离HTML标记。

什么在3.5.0版本新

  • 在添加了一个很可观的(3-5X)RAM规定减少持有的条款指数上开设的IndexReader。
  • 新增IndexSearcher.searchAfter它返回一个特定ScoreDoc后的结果(前一页的最后如文件),以支持深分页用例。
  • 新增SearcherManager管理跨多个搜索线程共享和重新打开IndexSearchers。底层的IndexReader实例安全关闭,如果不再引用。
  • 新增SearcherLifetimeManager这可以安全地提供跨多个请求的指数(如分页/明细)的一致视图。
  • 更名IndexWriter.optimize到forceMerge劝阻使用这种方法,因为它是可怕的昂贵,很少再有道理的。

什么是3.3.0版本,新的

  • 在拼写检查模块现在包括提示/自动完成功能,有三种实现:Jaspell,三元特里和有限状态
  • 支持合并来自多个碎片的结果,这两个"正常"搜索结果(TopDocs.merge)以及使用分组模块(SearchGroup.merge,TopGroups.merge)。分组结果
  • KStem,对于英文不太积极的词干的一个优化的实施。
  • 单通分组执行基于块的索引文件。
  • 改进MMapDirectory(现在同样FSDirectory.open在64位Linux返回的默认实现)。
  • NRTManager简化处理近乎实时搜索与多个搜索线程,允许应用程序来控制索引的改变必须是可见的哪个搜索请求。
  • TwoPhaseCommitTool有利于执行多资源两阶段提交,其中的IndexWriter。
  • 默认合并策略,TieredMergePolicy,有一个新的方法(套/ getReclaimDeletesWeight)来控制如何积极它的目标是段与缺失,和现在比以前更积极的默认情况下。
  • PKIndexSplitter工具由一个中间点长期分割的指数。

什么在3.2.0版本新

  • 在新的分组模块,在Lucene的/的contrib /分组,使搜索结果由一个单值索引字段来分组。
  • 在一个新的IndexUpgrader工具完全转换的旧索引为当前格式。
  • 在一个新目录执行,NRTCachingDirectory,缓存小段在RAM中,以减少I / O负载的快速NRT重新打开率的应用。
  • 在一个新的收藏家的实现,CachingCollector,能够收集搜索命中(文档ID以及可选的分数),然后重放。这对于需要两个或更多次才能产生结果收藏家有用的。
  • 在指数使用的IndexWriter的新addDocuments或updateDocuments方法的文件块。这些实验的API确保文件的块将永远留在连续的指数,从而使未来的有趣功能,如分组和联接。
  • 在一个新的默认合并策略,TieredMergePolicy,这是由于能够合并非连续的段更有效。
  • NumericField现在,当你加载一个存储的文档返回正确(之前你接受一个正常的外地赶回,与数值转换字符串)。

什么在3.1.0版本新

  • 在ConstantScoreQuery现在允许直接包裹查询
  • 的IndexWriter现在已经配置了新的独立制造商的API,IndexWriterConfig。现在,你可以通过调用setMaxThreadStates控制的IndexWriter先前固定的内部线程限制。
  • IndexWriter.getReader由IndexReader.open(的IndexWriter)所取代。此外,您现在可以指定是否当您打开一个NRT读者删除必须得到解决。
  • MultiSearcher被弃用; ParallelMultiSearcher已经被直接吸收到IndexSearcher的。
  • 在64位Windows和Solaris的JVM,MMapDirectory现在是默认的实现(由FSDirectory.open返回)。 MMapDirectory还可以取消映射如果JVM支持的话。
  • 新TotalHitCountCollector只计算命中总数。
  • ReaderFinishedListener API使外部缓存驱逐条目一旦段就完成了。

什么在3.0.1版本新

  • 在FuzzyTermEnum删除不需要的同步
  • 在当前解决中删除方面,有更好的表现这样做是长期排序。
  • 请不要错误地保持警告差不多的巨大来看,当IndexWriter.infoStream上。
  • 在固定最小/ MaxPayloadFunction返回0,当只有一个有效载荷存在。
  • 查询包括所有零升压条款(例如,文本:FOO ^ 0)排序不正确而产生的无效docids
  • 删除了FuzzyQuery受保护的内部类ScoreTerm。需要的变化,因为这类的比较已在不兼容的方式来改变。该类从来没有打算要公开。

什么是在2.9.2版本新

  • 在BooleanQuery无视disableCoord在其hashCode和equals方法,造成不好的事情发生缓存BooleanQueries时。
  • 请不要错误地保持警告差不多的巨大来看,当IndexWriter.infoStream上。
  • 在高索引速度,NRT读者可能会暂时失去缺失。

什么版本3.0.0的新

  • 删除系统属性设置SegmentReader类实现。
  • SnapshotDeletionPolicy#快照()从IndexCommitPoint到IndexCommit变更返回类型。需要使用此方法的代码,为了工作需要重新编译对Lucene的3.0。先前弃用IndexCommitPoint也将被删除。
  • 提供了方便AttributeFactory,对于所有基本属性创建一个令牌实例。
  • 在NumericRangeTermEnum删除递归。
  • 优化Levenshtein距离计算的FuzzyQuery。

类似的软件

FilteringHighlight
FilteringHighlight

13 May 15

Lunr.js
Lunr.js

10 Apr 16

finder.php
finder.php

13 Apr 15

HideSeek
HideSeek

4 Jun 15

显影剂的其他软件 Apache Software Foundation

Apache OpenNLP
Apache OpenNLP

19 Jul 15

Apache ServiceMix
Apache ServiceMix

11 Mar 16

Apache Accumulo
Apache Accumulo

4 Jun 15

意见 Apache Lucene

评论没有发现
添加评论
打开图片!