WEBAPP开发solr 中文分词器IKAnalyzer和拼音分词器pinyin-职坐标

WEBAPP开发solr 中文分词器IKAnalyzer和拼音分词器pinyin

白羽 2019-03-05 来源：网络阅读 3612 评论 0

摘要：本文将带你了解WEBAPP开发solr 中文分词器IKAnalyzer和拼音分词器pinyin，希望本文对大家学WEBAPP有所帮助。

本文将带你了解WEBAPP开发solr 中文分词器IKAnalyzer和拼音分词器pinyin，希望本文对大家学WEBAPP有所帮助。

WEBAPP开发solr 中文分词器IKAnalyzer和拼音分词器pinyin

solr分词过程：

Solr Admin中，选择Analysis，在FieldType中，选择text_en

左边框输入 “冬天到了天气冷了小明不想上学去了”，点击右边的按钮，发现对每个字都进行分词。这不符合中国人的习惯。

solr6.3.0自带中文分词包，在 \solr-6.3.0\contrib\analysis-extras\lucene-libs\lucene-analyzers-smartcn-6.3.0.jar，但是不能自定义词库

好在我们有IKAnalyzer（已无人更新，目前版本是2012）和pinyin分词插件。

IKAnalyzer安装

IKAnalyzer下载地址：https://github.com/EugenePig/ik-analyzer-solr5

因为原始的IKAnalyzer已经不支持solr5以后的版本，这里是修改过后的

用git clone到本地或者直接下载zip到本地，然后执行mvn clean instal（Java8），或者mvn clean -Djavac.src.version=1.7 -Djavac.target.version=1.7 install（jdk1.7）

执行完，在项目 /target 目录下，看到jar文件

将改jar文件copy到 solr目录：\solr-6.3.0\server\solr-webapp\webapp\WEB-INF\lib

然后修改core的配置文件：\solr-6.3.0\server\solr\test\conf\managed-schema

添加如下配置：

或者

保存重启solr，到选择test核心-Analysis，进入分词页面，输入“冬天到了天气冷了小明不想上学去了”，FieldType选择“text_cn”，点击Analyse Value按钮：

看到已经分词中文成功了。

pinyin安装

pinyin下载地址：//files.cnblogs.com/files/wander1129/pinyin.zip

下载后将2个jar文件copy到\solr-6.3.0\server\solr-webapp\webapp\WEB-INF\lib目录下，

然后修改core的配置文件：\solr-6.3.0\server\solr\test\conf\managed-schema，添加：

<fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0"> <analyzer type="index"> <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/> <filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" /> <filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" /> </analyzer> <analyzer type="query"> <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/> <filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" /> <filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" /> </analyzer> </fieldType>

重启solr

到选择test核心-Analysis，进入分词页面，输入“冬天到了天气冷了小明不想上学去了”，FieldType选择“text_pinyin”，点击Analyse Value按钮：

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标移动开发之WebApp频道！

职坐标官网 steam移动应用验证手机app赚钱软件

本文由 @白羽发布于职坐标。未经许可，禁止转载。