RegExp – регулярные выражения UTF8


Сегодня передо мной стояла задача:

Существует строка в кодировке UTF-8. Нужно регулярным выражением найти и вырезать все символы которые не принадлежат ни одному алфавиту (все символы кроме букв).

Для проверки я использовал текст из различных наборов символов в кодировке UTF-8:

русский: привет мир, арабский: مرحبا العالم, иврит: שלום העולם, португальский: Olá mundo, 0123456789-_!@#$%^&*()+=./\|'", «»“·”…◊°©®^`‘♣!.’¬¤ ¦§­±¶·¹%

После обработки регулярным выражением «[^\w\pL_-]» с использованием замены получил такую строку:

русскийприветмирарабскийمرحباالعالمивритשלוםהעולםпортугальскийOlámundo0123456789-_مرحبا

Для использования регулярного правила в PHP можно применить функцию preg_replace:

$str = preg_replace('~[^\w\pL_-]~u','',$str);

В помощь могу предложить полезную ссылочку на документацию: http://www.arininav.ru/js/perl04.htm

  • Share/Bookmark

Читайте ещё похожие статьи на этом сайте:

  1. EditArea – JavaScript редактор исходного кода
1 балл2 балла3 балла4 балла5 баллов (Без рейтинга)
Loading ... Loading ...
JavaScript, PHP, Web, Программирование


Если Вам понравилась эта статья, пожалуйста оставьте свой комментарий или подпишитесь на RSS-канал и получайте в будущем статьи на RSS Reader.

Комментарии

1 комментарий для “RegExp – регулярные выражения UTF8”

Написать комментарий

(обязательно)

(обязательно, не публикуется)