博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【语言处理与Python】3.3使用Unicode进行文字处理
阅读量:4446 次
发布时间:2019-06-07

本文共 594 字,大约阅读时间需要 1 分钟。

Unicode支持超过一百万种字符;

每个字符分配一个编号,成为编码点;在Python中,编码点写作\uXXXX的形式,其中XXXX是四位十六进制数;

 

从文件中提取已编码文本

#得到一个文件的路径(知道这个文件的编码)path= nltk.data.find('corpora/unicode_samples/polish-lat2.txt')import codecsf=codecs.open(path,encoding=’latin2’)#从文件对象f读出的文本将以Unicode返回,如果想在终端查看,必须使用合适的编码对它进行编码;unicode_escape是一种虚拟的编码for line in f:line=line.strip()print line.encode(‘unicode_escape’)Python中pring语句假设Unicode字符的默认编码是ASCII码nacute=u’\u0144’nacute_utf=nacute.encode(‘utf8’)print repr(nacute_utf)

 

Python中使用本地编码

在文件的第一行或者第二行中包含字符串

# -*- coding:utr-8 -*-

 

转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/24/3097107.html

你可能感兴趣的文章
2014年生日
查看>>
Django Rest Framework-介绍
查看>>
文件夹的创建(cmd利用)
查看>>
福大软工 · 真 · 最终作业
查看>>
2018.08.10 atcoder No Need(线性dp)
查看>>
css3 动画
查看>>
数组转对象
查看>>
扫描目录下的文件并拼接在一起
查看>>
ELK 分布式日志处理 10.12
查看>>
Java虚拟机详解05----垃圾收集器及GC参数
查看>>
7. 单位,移动布局
查看>>
inux中bin与sbin目录的作用及区别介绍
查看>>
USACO 3.1 Contact
查看>>
Office之什么是高内聚低耦合
查看>>
一些奇怪的问题求回答
查看>>
这些年踩过的坑
查看>>
iOS开发拓展篇——如何把项目托管到GitHub
查看>>
性能优化之数据库优化
查看>>
类的继承、菱形继承、派生、多态
查看>>
mysql约束
查看>>