【Python】用Python的“结巴”模块进行分词下载_Word模板_2

is_337177

暂无简介

【Python】用Python的“结巴”模块进行分词【Python】用Python的“结巴”模块进行分词之前都是用计算所的分词工具进行分词，效果不错但是比较麻烦，最近开始用Python的“结巴”模块进行分词，感觉非常方便。这里将我写的一些小程序分享给大家，希望对大家有所帮助。下面这个程序是对一个文本文件里的内容进行分词的程序:test.py #!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块 def splitSentence(inputFile, outputFile): fin...

【Python】用Python的“结巴”模块进行分词之前都是用计算所的分词工具进行分词，效果不错但是比较麻烦，最近开始用Python的“结巴”模块进行分词，感觉非常方便。这里将我写的一些小程序分享给大家，希望对大家有所帮助。下面这个程序是对一个文本文件里的内容进行分词的程序:test.py #!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块 def splitSentence(inputFile, outputFile): fin=open(inputFile, 'r') #以读的方式打开文件 fout=open(outputFile, 'w') #以写得方式打开文件 for eachLine in fin: line=eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格，并转为Unicode进行处理 wordList=list(jieba.cut(line)) #用结巴分词，对每行内容进行分词 outStr='' for word in wordList: outStr +=word outStr +='/ ' fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件 fin.close() fout.close() splitSentence('myInput.txt', 'myOutput.txt') 写完程序之后，在Linux重点输入:python test.py即可运行程序进行分词。输入的文件内容如下所示: 经过结巴分词后，输出结果如下所示: 注意:第11行的 jieba.cut()返回的结构是一个可迭代的generator，可以用list(jieba.cut(...))转化为list 口吃结巴矫正口吃网

本文档为【【Python】用Python的“结巴”模块进行分词】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

【Python】用Python的“结巴”模块进行分词

热门搜索

历史搜索