结巴的中文分词支持3种模式
例子:
import jieba
seg_list = jieba.cut(s) #默认是精确模式
print("Default Mode:",'/'.join(seg_list))
s = '我来到新华大学'
seg_list = jieba.cut(s,cut_all=True) #全模式
print("Full Mode:",'/'.join(seg_list))
seg_list = jieba.cut_for_search(s) #搜索引擎模式
print("搜索引擎模式:",'/'.join(seg_list))
结果:
Full Mode: 我/来到/新华/华大/大学
Default Mode: 我/来到/新华/大学
搜索引擎模式: 我/来到/新华/大学
cut_all用来控制分词的模式jieba.cut()返回的是一个可以迭代的生成器,可以用for循环来获得分词得到得每一个词语,也可以用list(jieba.cut(...))转化为列表。
基本用法如下:
jieba.load_userdict(file_name) # file_name 为自定义词典的路径
词典格式是一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后一部分为词性(可省略,jieba的词性标注方式和ICTCLAS的标注方式一样。ns为地点名词,nz为其他专用名词,a是形容词,v是动词,d是副词),三部分用空格隔开。例如下面自定义词典
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删
武汉格发信息技术有限公司,格发许可优化管理系统可以帮你评估贵公司软件许可的真实需求,再低成本合规性管理软件许可,帮助贵司提高软件投资回报率,为软件采购、使用提供科学决策依据。支持的软件有: CAD,CAE,PDM,PLM,Catia,Ugnx, AutoCAD, Pro/E, Solidworks ,Hyperworks, Protel,CAXA,OpenWorks LandMark,MATLAB,Enovia,Winchill,TeamCenter,MathCAD,Ansys, Abaqus,ls-dyna, Fluent, MSC,Bentley,License,UG,ug,catia,Dassault Systèmes,AutoDesk,Altair,autocad,PTC,SolidWorks,Ansys,Siemens PLM Software,Paradigm,Mathworks,Borland,AVEVA,ESRI,hP,Solibri,Progman,Leica,Cadence,IBM,SIMULIA,Citrix,Sybase,Schlumberger,MSC Products...