`
youjin
  • 浏览: 21888 次
  • 来自: ...
社区版块
存档分类
最新评论

coreseek一元切分模式中英文单词不切分问题

阅读更多
        网站搜索使用coreseek(sphinx),采用的一元分词模式,但按照官方网站的文档说明,却不支持英文单词、数字串一元分词,如:光华路SOHO,输入soho中任一字母不能查找出soho;输入soho可以查出,如标题中仅一个字母时,是可以的,如光华路h,输入“h”,可以查出,由此推断英文单词没有做一元分词索引,仔细查看文档:
(http://www.coreseek.cn/products-install/ngram_len_cjk/ 文档地址,此处仅列出主要部分)
#部分文档:

     ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
     
charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ ......略..


# end

   其中: ngram_chars 表示要进行一元字符切分模式的字符集;
          charset_table 表示可被一元字符切分模式认可的有效字符集;

    仔细对比字符集开头,发现ngram_chars中没有数字与英文字母的集合,呵呵!终于找到原因了,将charset_table字符集开头:“U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,U+FF21..U+FF3A->a..z,A..Z->a..z, a..z,”部分,复制到ngram_char字符集前头如下:
    ngram_chars =U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
     
charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ ......略..
重新执行索引,问题解决。
0
0
分享到:
评论
2 楼 youjin 2013-02-26  
会的,我们网站小区名称中,会有含英文单词的,如果不一元切词,想按某个字母搜是不行的。您说的搜hello,lloeh是出不来的,abhellocc会出来,必须包含hello的单词才会出来,搜h、e、l、o、he、el、hell、lo、hello等等hello都会出来。
1 楼 chenchendf 2013-02-22  
一般都不会启用英文单字切分吧,要不你查询hello,结果中的lloeh也会匹配出来

相关推荐

    coreseek(sphinx + 中文分词)

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek4.1.zip

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    CoreSeek/Sphinx中文手册

    从官网上拷贝的内容,然后转的pdf;自己看的时候加了部分标签

    coreseek4.1 for window

    coreseek4.1 window版本,sphinx 中文检索搜索引擎!

    sphinx-coreseek中文手册

    sphinx-coreseek中文手册 sphinx-coreseek中文手册 sphinx-coreseek中文手册 sphinx-coreseek中文手册

    Coreseek 4.1 参考手册

    Coreseek 4.1 参考手册,详细手册,网页文本

    coreseek-3.2.14稳定版,,站内中文检索

    sphinx coreseek-3.2.14.tar.gz稳定版,中文检索利器。

    coreseek-4.1-win32

    coreseek被称为带有中文分词的sphinx,与 sphinx不同的是coreseek增加了一个带有中文分词的词库,本下载是coreseek-4.1-win32

    coreseek-3.2.14-win32

    基于sphinx的中文检索Sphinx如果需要对中文进行全文 检索,也得需要一些插件来补充。其中我知道的插件有 coreseek

    coreseek SPHINX 使用说明及详细介绍

    coreseek SPHINX 使用说明及详细介绍

    coreseek-4.1-beta.tar.gz

    之前上传的coressek-3.2.14在我的centos上编译通不过。百度了下,说是不兼容GCC4.7。...又找了个coreseek-4.1,但是又遇到不能生成configure文件。再百度找到解决方案。修改完,重新打了个包。供下载。

    coreseek安装

    Coreseek 是一款可供企业使用的、基于Sphinx(可独立于Sphinx原始版本运行)中文全文检索/搜索软件,以GPLv2许可协议开源发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/...

    coreseek3.1.14

    目录说明: csft-x.y.z:coreseek源代码 mmseg-i.j.k:mmseg源代码 testpack:测试配置和数据包

    coreseek 搜索英文的问题详解

    本篇文章是对coreseek搜索英文的问题进行了详细的分析介绍,需要的朋友参考下

    官网不能下,这里可以下载coreseek-3.2.14-.tar.gz

    官网下载不了,我也找了好久,在这里分享给大家。

    coreseek中日韩分词词库

    coreseek/sphinx分词词库txt版本(中日韩)

    sphinx/coreseek权威手册中文版

    coreseek3.2版本(目前来说最稳定的coreseek版本)的权威中文手册,内部带配置和开发示例。

    coreseek-4.1-win32.rar

    中文的sphinx coreseek,搜索引擎,搭配Sphinx进行中文分词搜索

    sphinx+coreseek安装配置

    详细说明sphinx+coreseek安装、配置、php很用

    coreseek-4.1

    sphinx coreseek 备用的coreseek,4.1版本。配合sphinx2,

Global site tag (gtag.js) - Google Analytics