【语言处理与Python】3.3使用Unicode进行文字处理-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

【语言处理与Python】3.3使用Unicode进行文字处理

阅读量：4446 次

发布时间：2019-06-07

本文共 594 字，大约阅读时间需要 1 分钟。

Unicode支持超过一百万种字符；

每个字符分配一个编号，成为编码点；在Python中，编码点写作\uXXXX的形式，其中XXXX是四位十六进制数；

从文件中提取已编码文本

#得到一个文件的路径（知道这个文件的编码）path= nltk.data.find('corpora/unicode_samples/polish-lat2.txt')import codecsf=codecs.open(path,encoding=’latin2’)#从文件对象f读出的文本将以Unicode返回，如果想在终端查看，必须使用合适的编码对它进行编码；unicode_escape是一种虚拟的编码for line in f:line=line.strip()print line.encode(‘unicode_escape’)Python中pring语句假设Unicode字符的默认编码是ASCII码nacute=u’\u0144’nacute_utf=nacute.encode(‘utf8’)print repr(nacute_utf)

在Python中使用本地编码

在文件的第一行或者第二行中包含字符串

# -*- coding:utr-8 -*-

转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/24/3097107.html

你可能感兴趣的文章

Django Rest Framework-介绍

文件夹的创建（cmd利用）

福大软工 · 真 · 最终作业

2018.08.10 atcoder No Need（线性dp）

数组转对象

扫描目录下的文件并拼接在一起

ELK 分布式日志处理 10.12

Java虚拟机详解05----垃圾收集器及GC参数

7. 单位，移动布局

inux中bin与sbin目录的作用及区别介绍

USACO 3.1 Contact

Office之什么是高内聚低耦合

一些奇怪的问题求回答

这些年踩过的坑

iOS开发拓展篇——如何把项目托管到GitHub

性能优化之数据库优化

类的继承、菱形继承、派生、多态

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-12 17:17:59 当前IP: 52.14.134.130 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我