Как да се идентифицират и да промените кодировката на файла

Предишен ◈ Следващото

Linux администратори, които работят с уеб хостинг, знаят колко важно е за съхраняване на документи в правилната HTML кодиране.

В тази статия ще научите как да се определи кодировката на файла от командния ред в Linux.

Също така, ще се запознаят с най-доброто решение за конвертиране на текст между различни кодировки.

Освен това, аз ще предоставя примери за превръщането на текст между тези най-често срещаните кодировки като CP1251 (Windows-1251 кирилица), UTF-8. ISO-8859-1, и ASCII.

Определете кодирането на файла

Използвайте следната команда за да разберете кой кодиране на знаците, използвани във файла:

Не отпечатва името на файла (кратко режим)

За да се определи вида на файла и кодиране

Определете кодирането in.txt файлове:

Променете кодировката на файла

Използвайте следната команда за промяна на кодировката на файла:

Промяна с кодиране

Промяна на кодиране

Запазване на резултата във файл

Промяна на кодировката на файла с cp1251 (Windows-1251 кирилица) към UTF-8:

Променете файл кодиране на ISO-8859-1, за да UTF-8 и запишете резултата в out.txt:

Промяна на кодировката на файла от ASCII към UTF-8:

Променете файл кодирането на UTF-8, за да ASCII на:

Незаконен входна последователност на позиция: Тъй като UTF-8 може да съдържа знаци, които не се преобразуват в ASCII, за изброяване ще генерира съобщение за грешка «Незаконно входна последователност на позиция« един, докато ти кажа, пропуснете всички неконвертируеми в ASCII символи с -C на опцията.

За да се изключи от изходните невалидни знаци

Вие можете да изгубите символи: Имайте предвид, че с помощта на изброяване с опцията -с, някои символи могат да бъдат загубени.

А доста често срещана ситуация за тези, които работят заедно с Windows и Linux.

По-специално, това се отнася за Windows машини с кирилицата.

Можете да копирате всички файлове от Windows към Linux, но когато го отворите в Linux, можете да видите "Êàêèå-Oi êðàêîçÿáðû" - Какво по ....

Не изпадайте в паника - тези линии могат да бъдат лесно превърнати от CP1251 кодиране (Windows-1251 кирилица) в UTF-8 по:

Списък на всички набори от символи

Направете списък с всички известни кодировки:

Аз съм вървят Linux Mint 18.1 с Канела 3.2. Имах някои чешки символи в имената на файловете (например: Pešek.m4a). Индексът S се появи като. и името на файла, включени предупреждение за невалиден кодиране. Използвах convmv да конвертирате имена на файлове (от ISO-8859-1) до UTF-8, но Индексът S сега изглежда като различен характер (квадрат с 009A в него. Опитах файла командата, която се препоръчва, и имам отговор, че набора от знаци е двоичен. Как да се реши този? Бих искал да има имена на файлове включват правилните UTF-8 герои.
Благодарим ви за Help-

OpenSSL: Проверете съответния клавиш от сертификат за SSL и CSR

Предишен ◈ Следващото

Как да се идентифицират и да промените кодировката на файла

Определете кодирането на файла

Променете кодировката на файла

Списък на всички набори от символи

Меню

Марка статии