6 Star 61 Fork 15

王万宝 / Surfing-Segment

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
MulanPSL-2.0

Surfing-Segment分词引擎

Surfing-Segment是一个高效、灵活的Java分词库。它集成了动态解析算法和基于词典的分析技术,专为文本处理、智能匹配和搜索引擎优化而设计。该项目包含一个Elasticsearch插件,适合企业级Elasticsearch搜索引擎的集成和应用。经过多家企业的实际运营验证,Surfing-Segment证明其在自定义词典管理、动态型号解析、同义词处理以及型号多段切分等方面具备出色的表现和稳定的性能。

🌟 项目背景

在过去十余年间,搜索引擎技术经历了迅速的发展。作为这个领域的资深专家(作者有3项搜索引擎领域发明专利),作者最初受到了林良益先生开发的ik-analyzer的启发,并广泛实用。随着时间的发展,ik-analyzer已经成为Java领域分词技术的标杆。Ik-analyzer采用了高效的Trie树结构,以其出色的性能、准确度高的分词策略和智能的消歧能力闻名。基于对ik-analyzer深入的理解和实际应用的丰富经验,作者开发了Surfing-Segment,旨在提供一个更加灵活和适应性强的分词解决方案。

项目亮点

  1. 自定义词典支持:用户可以根据自身业务需求,轻松扩展和自定义词典,确保分词的专业性和精准度。
  2. 型号动态解析:具备先进的型号动态解析功能,即便是对于复杂的产品型号、缩写和变体,不依赖词典也能实现动态精确切分。
  3. 同义词处理:允许定义同义词词典,增强搜索结果的相关性,丰富用户查询时的搜索体验。
  4. 多段型号分词:能够将型号等专有名词切分为多个有意义的部分,增强了对于专业术语的理解和匹配能力。
  5. Elasticsearch插件集成:提供现成的Elasticsearch插件,便于在现代搜索引擎中快速部署和使用。

应用示例

Surfing-Segment 的特点在于其强大的自定义能力和对复杂型号的智能解析。举例来说,对于输入:

分词输入

微卡固/VIKAGU 螺丝胶VG263B 威卡固螺纹锁高强度耐高温密封单组分M20强力胶水 50ml

分词结果

以下表格展示了Surfing-Segment分词工具处理特定输入字符串的输出结果。每一行展示了分词的内容、标签、位置范围以及标准化的词。

分词内容 标签 位置范围 标准词
微卡固 brand 0-3 威卡固
VIKAGU sn, brand 5-10 威卡固
螺丝胶 goods 12-15
VG263B sn 17-22
威卡固 brand 24-27 威卡固
螺纹锁 goods 28-31
高强度 attribute 32-35
耐高温 attribute 36-39
密封 attribute 40-42
单组分 attribute 43-46
M20 sn 47-49
强力胶水 goods 50-54
50ml quantifier 56-60

分析结果

在这个输出中,我们可以观察到以下几点:

  • 品牌识别

    • "微卡固" 和 "VIKAGU" 被识别为同一个品牌的不同表述。两者都被标注为品牌 [brand],并且有标准词映射“威卡固”,这增强了搜索的一致性。
  • 产品型号解析

    • "VG263B" 和 "M20" 作为产品型号 [sn] 被准确地分离出来,展现了动态解析算法的能力。
  • 商品和属性分类

    • "螺丝胶"、“螺纹锁”和“强力胶水”均被标识为商品 [goods]
    • "高强度"、“耐高温”、“密封”和“单组分”被标记为产品属性 [attribute]
  • 量词识别

    • "50ml" 作为量词 [quantifier] 被单独识别,这对于量化的搜索查询至关重要。

技术创新和精确度

Surfing-Segment通过结合词典匹配与动态解析算法,能够实现对文本的精确分词。这一技术上的创新使得工具在处理专业术语、品牌名称和复杂型号上表现优异。该技术对于需要精准文本处理的应用来说极具价值。

商业应用价值

  • 搜索引擎优化:Surfing-Segment提升了搜索引擎优化的效率和效果,尤其在电商平台和在线服务中,可提高搜索结果的相关性和用户满意度。
  • 转化率与用户留存:优化的用户搜索体验通常会直接转化为更高的转化率和用户留存率,对商业企业至关重要。

扩展性与集成

Surfing-Segment提供Elasticsearch插件支持,展现了其可扩展性,并意味着它可以轻松集成进现有技术栈中,为企业升级现有系统提供无缝解决方案。

市场验证

由于Surfing-Segment已在商业环境中得到应用,其市场验证彰显技术和应用的成熟度,为潜在客户和用户提供了信任和可靠性的保证。

广泛的适用性

基于Java的实现让它可以被广泛的企业用户所接受。Java的普及性确保了该工具可以被多数企业级用户所理解和使用。

总结来说,Surfing-Segment提供了一个高度可定制和可扩展的解决方案,能够满足企业在文本处理、数据分析和搜索引擎优化方面的高级需求。在大数据和信息检索的背景下,它可以帮助企业深入洞察用户需求,优化信息检索过程,提高操作效率,对决策制定和市场响应能力产生积极的影响。

木兰宽松许可证, 第2版 木兰宽松许可证, 第2版 2020年1月 http://license.coscl.org.cn/MulanPSL2 您对“软件”的复制、使用、修改及分发受木兰宽松许可证,第2版(“本许可证”)的如下条款的约束: 0. 定义 “软件”是指由“贡献”构成的许可在“本许可证”下的程序和相关文档的集合。 “贡献”是指由任一“贡献者”许可在“本许可证”下的受版权法保护的作品。 “贡献者”是指将受版权法保护的作品许可在“本许可证”下的自然人或“法人实体”。 “法人实体”是指提交贡献的机构及其“关联实体”。 “关联实体”是指,对“本许可证”下的行为方而言,控制、受控制或与其共同受控制的机构,此处的控制是指有受控方或共同受控方至少50%直接或间接的投票权、资金或其他有价证券。 1. 授予版权许可 每个“贡献者”根据“本许可证”授予您永久性的、全球性的、免费的、非独占的、不可撤销的版权许可,您可以复制、使用、修改、分发其“贡献”,不论修改与否。 2. 授予专利许可 每个“贡献者”根据“本许可证”授予您永久性的、全球性的、免费的、非独占的、不可撤销的(根据本条规定撤销除外)专利许可,供您制造、委托制造、使用、许诺销售、销售、进口其“贡献”或以其他方式转移其“贡献”。前述专利许可仅限于“贡献者”现在或将来拥有或控制的其“贡献”本身或其“贡献”与许可“贡献”时的“软件”结合而将必然会侵犯的专利权利要求,不包括对“贡献”的修改或包含“贡献”的其他结合。如果您或您的“关联实体”直接或间接地,就“软件”或其中的“贡献”对任何人发起专利侵权诉讼(包括反诉或交叉诉讼)或其他专利维权行动,指控其侵犯专利权,则“本许可证”授予您对“软件”的专利许可自您提起诉讼或发起维权行动之日终止。 3. 无商标许可 “本许可证”不提供对“贡献者”的商品名称、商标、服务标志或产品名称的商标许可,但您为满足第4条规定的声明义务而必须使用除外。 4. 分发限制 您可以在任何媒介中将“软件”以源程序形式或可执行形式重新分发,不论修改与否,但您必须向接收者提供“本许可证”的副本,并保留“软件”中的版权、商标、专利及免责声明。 5. 免责声明与责任限制 “软件”及其中的“贡献”在提供时不带任何明示或默示的担保。在任何情况下,“贡献者”或版权所有者不对任何人因使用“软件”或其中的“贡献”而引发的任何直接或间接损失承担责任,不论因何种原因导致或者基于何种法律理论,即使其曾被建议有此种损失的可能性。 6. 语言 “本许可证”以中英文双语表述,中英文版本具有同等法律效力。如果中英文版本存在任何冲突不一致,以中文版为准。 条款结束 如何将木兰宽松许可证,第2版,应用到您的软件 如果您希望将木兰宽松许可证,第2版,应用到您的新软件,为了方便接收者查阅,建议您完成如下三步: 1, 请您补充如下声明中的空白,包括软件名、软件的首次发表年份以及您作为版权人的名字; 2, 请您在软件包的一级目录下创建以“LICENSE”为名的文件,将整个许可证文本放入该文件中; 3, 请将如下声明文本放入每个源文件的头部注释中。 Copyright (c) [Year] [name of copyright holder] [Software Name] is licensed under Mulan PSL v2. You can use this software according to the terms and conditions of the Mulan PSL v2. You may obtain a copy of Mulan PSL v2 at: http://license.coscl.org.cn/MulanPSL2 THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE. See the Mulan PSL v2 for more details. Mulan Permissive Software License,Version 2 Mulan Permissive Software License,Version 2 (Mulan PSL v2) January 2020 http://license.coscl.org.cn/MulanPSL2 Your reproduction, use, modification and distribution of the Software shall be subject to Mulan PSL v2 (this License) with the following terms and conditions: 0. Definition Software means the program and related documents which are licensed under this License and comprise all Contribution(s). Contribution means the copyrightable work licensed by a particular Contributor under this License. Contributor means the Individual or Legal Entity who licenses its copyrightable work under this License. Legal Entity means the entity making a Contribution and all its Affiliates. Affiliates means entities that control, are controlled by, or are under common control with the acting entity under this License, ‘control’ means direct or indirect ownership of at least fifty percent (50%) of the voting power, capital or other securities of controlled or commonly controlled entity. 1. Grant of Copyright License Subject to the terms and conditions of this License, each Contributor hereby grants to you a perpetual, worldwide, royalty-free, non-exclusive, irrevocable copyright license to reproduce, use, modify, or distribute its Contribution, with modification or not. 2. Grant of Patent License Subject to the terms and conditions of this License, each Contributor hereby grants to you a perpetual, worldwide, royalty-free, non-exclusive, irrevocable (except for revocation under this Section) patent license to make, have made, use, offer for sale, sell, import or otherwise transfer its Contribution, where such patent license is only limited to the patent claims owned or controlled by such Contributor now or in future which will be necessarily infringed by its Contribution alone, or by combination of the Contribution with the Software to which the Contribution was contributed. The patent license shall not apply to any modification of the Contribution, and any other combination which includes the Contribution. If you or your Affiliates directly or indirectly institute patent litigation (including a cross claim or counterclaim in a litigation) or other patent enforcement activities against any individual or entity by alleging that the Software or any Contribution in it infringes patents, then any patent license granted to you under this License for the Software shall terminate as of the date such litigation or activity is filed or taken. 3. No Trademark License No trademark license is granted to use the trade names, trademarks, service marks, or product names of Contributor, except as required to fulfill notice requirements in Section 4. 4. Distribution Restriction You may distribute the Software in any medium with or without modification, whether in source or executable forms, provided that you provide recipients with a copy of this License and retain copyright, patent, trademark and disclaimer statements in the Software. 5. Disclaimer of Warranty and Limitation of Liability THE SOFTWARE AND CONTRIBUTION IN IT ARE PROVIDED WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED. IN NO EVENT SHALL ANY CONTRIBUTOR OR COPYRIGHT HOLDER BE LIABLE TO YOU FOR ANY DAMAGES, INCLUDING, BUT NOT LIMITED TO ANY DIRECT, OR INDIRECT, SPECIAL OR CONSEQUENTIAL DAMAGES ARISING FROM YOUR USE OR INABILITY TO USE THE SOFTWARE OR THE CONTRIBUTION IN IT, NO MATTER HOW IT’S CAUSED OR BASED ON WHICH LEGAL THEORY, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGES. 6. Language THIS LICENSE IS WRITTEN IN BOTH CHINESE AND ENGLISH, AND THE CHINESE VERSION AND ENGLISH VERSION SHALL HAVE THE SAME LEGAL EFFECT. IN THE CASE OF DIVERGENCE BETWEEN THE CHINESE AND ENGLISH VERSIONS, THE CHINESE VERSION SHALL PREVAIL. END OF THE TERMS AND CONDITIONS How to Apply the Mulan Permissive Software License,Version 2 (Mulan PSL v2) to Your Software To apply the Mulan PSL v2 to your work, for easy identification by recipients, you are suggested to complete following three steps: i Fill in the blanks in following statement, including insert your software name, the year of the first publication of your software, and your name identified as the copyright owner; ii Create a file named “LICENSE” which contains the whole context of this License in the first directory of your software package; iii Attach the statement to the appropriate annotated syntax at the beginning of each source file. Copyright (c) [Year] [name of copyright holder] [Software Name] is licensed under Mulan PSL v2. You can use this software according to the terms and conditions of the Mulan PSL v2. You may obtain a copy of Mulan PSL v2 at: http://license.coscl.org.cn/MulanPSL2 THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE. See the Mulan PSL v2 for more details.

简介

Surfing-Segment是一个先进的文本分词工具,专门增强ik-analyzer。包含多个自定义词典,动态识别型号、同义词功能、elasticsearch插件等功能。显著的增强了对专业术语及复杂型号的分词精确度。是电商平台优化体验的理想选择。 展开 收起
Java
MulanPSL-2.0
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Java
1
https://gitee.com/sh_wangwanbao/surfing-segment.git
git@gitee.com:sh_wangwanbao/surfing-segment.git
sh_wangwanbao
surfing-segment
Surfing-Segment
master

搜索帮助