Как да се идентифицират и да промените кодировката на файла
Linux администратори, които работят с уеб хостинг, знаят колко важно е за съхраняване на документи в правилната HTML кодиране.
В тази статия ще научите как да се определи кодировката на файла от командния ред в Linux.
Също така, ще се запознаят с най-доброто решение за конвертиране на текст между различни кодировки.
Освен това, аз ще предоставя примери за превръщането на текст между тези най-често срещаните кодировки като CP1251 (Windows-1251 кирилица), UTF-8. ISO-8859-1, и ASCII.
Определете кодирането на файла
Използвайте следната команда за да разберете кой кодиране на знаците, използвани във файла:
Не отпечатва името на файла (кратко режим)
За да се определи вида на файла и кодиране
Определете кодирането in.txt файлове:
Променете кодировката на файла
Използвайте следната команда за промяна на кодировката на файла:
Промяна с кодиране
Промяна на кодиране
Запазване на резултата във файл
Промяна на кодировката на файла с cp1251 (Windows-1251 кирилица) към UTF-8:
Променете файл кодиране на ISO-8859-1, за да UTF-8 и запишете резултата в out.txt:
Промяна на кодировката на файла от ASCII към UTF-8:
Променете файл кодирането на UTF-8, за да ASCII на:
Незаконен входна последователност на позиция: Тъй като UTF-8 може да съдържа знаци, които не се преобразуват в ASCII, за изброяване ще генерира съобщение за грешка «Незаконно входна последователност на позиция« един, докато ти кажа, пропуснете всички неконвертируеми в ASCII символи с -C на опцията.
За да се изключи от изходните невалидни знаци
Вие можете да изгубите символи: Имайте предвид, че с помощта на изброяване с опцията -с, някои символи могат да бъдат загубени.
А доста често срещана ситуация за тези, които работят заедно с Windows и Linux.
По-специално, това се отнася за Windows машини с кирилицата.
Можете да копирате всички файлове от Windows към Linux, но когато го отворите в Linux, можете да видите "Êàêèå-Oi êðàêîçÿáðû" - Какво по ....
Не изпадайте в паника - тези линии могат да бъдат лесно превърнати от CP1251 кодиране (Windows-1251 кирилица) в UTF-8 по:
Списък на всички набори от символи
Направете списък с всички известни кодировки:
Аз съм вървят Linux Mint 18.1 с Канела 3.2. Имах някои чешки символи в имената на файловете (например: Pešek.m4a). Индексът S се появи като. и името на файла, включени предупреждение за невалиден кодиране. Използвах convmv да конвертирате имена на файлове (от ISO-8859-1) до UTF-8, но Индексът S сега изглежда като различен характер (квадрат с 009A в него. Опитах файла командата, която се препоръчва, и имам отговор, че набора от знаци е двоичен. Как да се реши този? Бих искал да има имена на файлове включват правилните UTF-8 герои.
Благодарим ви за Help-
OpenSSL: Проверете съответния клавиш от сертификат за SSL и CSR