查看文本文件編碼格式
① 如何判斷一個文本文件內容的編碼格式 UTF-8
文件的字元集在Windows下有兩種,一種是ANSI,一種Unicode。
對於Unicode,Windows支持了它的三種編碼方式,一種是小尾編碼(Unicode),一種是大尾編碼(BigEndianUnicode),一種是UTF-8編碼。
我們可以從文件的頭部來區分一個文件是屬於哪種編碼。當頭部開始的兩個位元組為 FF FE時,是Unicode的小尾編碼;當頭部的兩個位元組為FE
FF時,是Unicode的大尾編碼;當頭部兩個位元組為EF BB時,是Unicode的UTF-8編碼;當它不為這些時,則是ANSI編碼。
按照如上所說,我們可以通過讀取文件頭的兩個位元組來判斷文件的編碼格式,代碼如下(C#代碼):
程序中System.Text.Encoding.Default是指操作系統的當前 ANSI 代碼頁的編碼。
1: public System.Text.Encoding GetFileEncodeType(string filename)
2: {
3: System.IO.FileStream fs = new System.IO.FileStream(filename, System.IO.FileMode.Open, System.IO.FileAccess.Read);
4: System.IO.BinaryReader br = new System.IO.BinaryReader(fs);
5: Byte[] buffer = br.ReadBytes(2);
6: if(buffer[0]>=0xEF)
7: {
8: if(buffer[0]==0xEF && buffer[1]==0xBB)
9: {
10: return System.Text.Encoding.UTF8;
11: }
12: else if(buffer[0]==0xFE && buffer[1]==0xFF)
13: {
14: return System.Text.Encoding.BigEndianUnicode;
15: }
16: else if(buffer[0]==0xFF && buffer[1]==0xFE)
17: {
18: return System.Text.Encoding.Unicode;
19: }
20: else
21: {
22: return System.Text.Encoding.Default;
23: }
24: }
25: else
26: {
27: return System.Text.Encoding.Default;
28: }
29: }
② 如何查看txt文本文檔的編碼格式
你是指ANSI和Unicode,還是GB2312/Big5呢,如果是前者你打開該文本文檔點另存為,看文本類型;後者的話你需要用IE看,裡面有編碼選擇,也可以自己判斷,比如如果是big5碼屬於ansi類型,如果你是簡體系統,那用記事本打開肯定是亂碼,反之gb2312屬ansi類型,繁體打開同樣亂碼,如果unicode就無法判斷了,當然你可以通過另存為不同ansi類型是否亂碼來判斷。
下載UE或EditPlus看看,好像能看到文件的編碼類型,試試吧。
③ 如何判斷文本文件的字元編碼格式
查看TXT文件編碼方式:
首先,不同編碼的文本,是根據文本的前兩個位元組來定義其編碼格式的。定義如下:
ANSI:無格式定義;
Unicode: 前兩個位元組為FFFE;
Unicode big endian:前兩位元組為FEFF;
UTF-8: 前兩位元組為EFBB;
這樣通過前面兩個位元組就可以判定出文件的具體格式了。
④ 如何查看文件編碼格式及轉換文件編碼
常見的比如在Visual Studio 中寫的C\C++程序需要放到Linux主機上編譯,而程序的中文注釋則顯示為亂碼,比較嚴重的是由於編碼原因,linux上的編譯器報錯。 用VIM查看文件編碼 在Vim 中可以直接查看文件編碼 :set fileencoding 即可顯示文件編碼格式。 如果你只是想查看其它編碼格式的文件或者想解決用Vim查看文件亂碼的問題,那麼你可以在 ~/.vimrc 文件中添加以下內容: set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936 這樣,就可以讓vim自動識別文件編碼(可以自動識別UTF-8或者GBK編碼的文件),其實就是依照 fileencodings提供的編碼列表嘗試,如果沒有找到合適的編碼,就用latin-1(ASCII)編碼打開。用ICONV文件編碼轉換 我們利用iconv工具對文件的編碼進行轉換。 iconv 轉換,iconv的命令格式如下: iconv -f encoding -t encoding inputfile 比如將一個GBK 編碼的文件轉換成UTF-8編碼 iconv -f GBK -t UTF-8 file1 -o file2 其中的參數的意義表示 -f From 某個編碼-o 輸出到文件
⑤ 查看文件編碼,如何查看文件編碼
如果你有UE等工具,那會修改編碼格式會更方便。
首先:使用UE打開文件,注意圖片中標紅的地方,顯示的為文件編碼格式。
⑥ 如何查看文件編碼格式
1、在windows的本身系統中,是難以知道一個文件的編碼格式的。需要能過一些操作才能得知文件的編碼格式。如果你沒有一些其他的工具來幫助你查看文件編碼格式,使用記事本也是可以達到目的。
下在以txt文件為例。首先你必須打開該文件。
⑦ 如何檢查TXT文本是不是ANSI編碼格式的
1、首先打開該TXT文本
(7)查看文本文件編碼格式擴展閱讀:
常見的編碼格式有ASCII、ANSI、GBK、GB2312、UTF-8、GB18030和UNICODE等。對應的編碼規則有單位元組字元編碼、ANSI編碼和UNICODE編碼等。
ANSI編碼
把 UNICODE 字元串通過 ANSI 編碼轉化為「位元組串」時,根據各自編碼的規定,一個 UNICODE 字元可能轉化成一個位元組或多個位元組。
反之,將位元組串轉化成字元串時,也可能多個位元組轉化成一個字元。比如,[0xD6, 0xD0] 這兩個位元組,通過 GB2312 轉化為字元串時,將得到 [0x4E2D] 一個字元,即 '中' 字。
ANSI 編碼的特點:
1、這些「ANSI 編碼標准」都只能處理各自語言范圍之內的 UNICODE 字元。
2、「UNICODE 字元」與「轉換出來的位元組」之間的關系是人為規定的。