1. 首页
  2. 电脑数据恢复

txt文档乱码怎么恢复吗?附几种文件编码方式讲解

文本和文字处理技术人类社会的知识、文化和历史大部分都是以文字形式记录和传播的,人们日常的工作、学习和生活也离不开文字,因此,文字信息的计算机处理是信息处理的一个主

文本和文字处理技术

人类社会的知识、文化和历史大部分都是以文字形式记录和传播的,人们日常的工作、学习和生活也离不开文字,因此,文字信息的计算机处理是信息处理的一个主要方面,也是各种计算机应用的重要基础。

文字信息在计算机中称之为“文本(text)”,他由一系列的字符所构成。文本是基于特定字符集的具有上下文相关性的一个字符流,每个字符都使用二进制编码表示。文本是计算机中最常用的一种数字媒体,手机短信,电子邮件、word文档等都属于文本。

文本在计算机中处理过程包括文本准备,文本编辑、文本处理、文本存储和传输、文本展现。根据应用场合的不同,各个处理环节的内容和要求都可能有很大的差别。

txt文档乱码怎么恢复吗?附几种文件编码方式讲解

 

组成文本的基本元素称之为字符。字符无处不在,网址名、网址、微信号等也都是由字符组成的。与数值信息一样,为了便于在不同的系统之间进行交换,字符必须采用标准的二进制编码表示。但字符和国家、地区的文化有关,情况非常复杂,本文主要介绍西文字符和汉字字符的常用编码表示。

目前计算机中使用的最广泛的西文字符集机器编码就是ascii字符集和ascii码,即美国信息交换标准码。

中文字符的基本组成单元就是汉字,我国的汉字的综述超过六万字,数量大,字形复杂,同音字多,异体字多,因而汉字在计算机中的内部表示、处理、传输和交换以及汉字的输入、输出都比西文复杂。

txt文档乱码怎么恢复吗?附几种文件编码方式讲解

 

我们采用了如下几种编码方式:

1、 GB2312汉字编码:

为了适应计算机处理汉字信息的需要,1981年我国颁布了第一个国家标准——《信息交换用汉字编码字符集·····基本集》(GB2312).该标准选出了6763个常用汉字和682个非汉字图形字符。为每个字符规定了标准代码,以便在不同计算机系统之间进行中文文本的交换。

GB2312国标字符集由三个部分组成,第一个部分是字母、数字和各种符号、包括拉丁字母、俄文字符、日文平假名字母和片假名字母、希腊字母、汉语拼音字母等共682个。第二部分为一级常用汉字,共3755个,按照汉语拼音排列,第三部分为二级常用汉字,共3008个,按照部首偏旁排列。

GB2312的所有字符在计算机内部都采用2个字节来表示,每个字节的最高位都规定为1,这种高位均1的双字节汉字编码就成为GB2312的“机内码”(内码),以区别西文字符ASCII编码,例如,在“南”字的gb2312的内码就是1100010011001111,因此在中西文混合使用的场合,汉字和西文字母很容易区别,方便了计算机的处理。

 

2、 GBK汉字内码扩充规范

GB2312只有6763个汉字,均为简体字,在人名和地名的处理上经常不够用,尤其是在古籍整理方面有很大的缺陷,为此迫切的需要有包含繁体字在内的更多汉字的标准字符集。

GBK是我国在1995年发布的,全称为《汉字内码扩展规范》。她一共有21003个汉字和883个图形符号,除了gb2312中的全部汉字和符号外,还收录了包括含繁体字在内的大量汉字和图形符号,

GBK汉字在计算机内也是用双字节表示,为了与GB2312保持向下兼容,所有与GB2312相同的字符,其编码也保持相同,新增加的符号和汉字则给与新的编码方式。他们的第一字节最高位必须为1,第二字节的最高位可以是1也可以是0.

 

3、 UCS/Unicode和GB18030编码

上述几种编码都是面向一个国家或者地区使用的。全球有数以千计的不同语言文字,为了国际交流方便,国际标准化组织iso制定了一个将全世界现代书面文字使用的所有字符和符号几种进行统一编码的标准,成为ucs标准字符集。对应的工业标准称之为unicode,它的具体编码方案有很多,如utf-8和UTf-16已在主流操作系统、编程语言以及许多app中广泛使用。

 

为了既能和国际标准Ucs/unicode接轨,又能保护已有的大量中文电子信息资源,进入21世纪后,我国发布并开始执行了新的GB18030汉字编码国家标准,GB18030标准一方面和gb2312和gbk保持向下兼容,同时还扩充了unicode中其他字符的编码,实际上它可以看作为ucs/Unicode的另一种编码方案。

 

上述编码标准各有其优缺点。目前几乎所有的pc和智能手机/平板电脑都能支持包括汉字在内的多国文字的处理、存储和传输,但是不同的操作系统、不同的编程语言和不同的app所采用的字符集和编码标准的不同,因此不同系统、不同软件在互通的时候需要进行编码的转换,有时候会发生差错,人们在浏览网页或者收看邮件的时候,屏幕上偶尔会出现的乱码就是因为编码转换所导致的。

本文经授权发布,不代表本站立场。如若转载请联系原作者。请注明出处:http://www.jzrcgk.com/sjhfzixun/2051.html

电脑回收箱清空删除的文件能找回来吗?凡事要掌握一定的技巧
上一篇 « 14天前
多次清空回收站后文件还能找回吗?错过黄金恢复时间还有妙招
下一篇 » 14天前

相关推荐