RegExp – регулярные выражения UTF8
Сегодня передо мной стояла задача:
Существует строка в кодировке UTF-8. Нужно регулярным выражением найти и вырезать все символы которые не принадлежат ни одному алфавиту (все символы кроме букв).
Для проверки я использовал текст из различных наборов символов в кодировке UTF-8:
русский: привет мир, арабский: مرحبا العالم, иврит: שלום העולם, португальский: Olá mundo, 0123456789-_!@#$%^&*()+=./\|'", «»“·”…◊°©®^`‘♣!.’¬¤ ¦§±¶·¹%
После обработки регулярным выражением «[^\w\pL_-]» с использованием замены получил такую строку:
русскийприветмирарабскийمرحباالعالمивритשלוםהעולםпортугальскийOlámundo0123456789-_مرحبا
Для использования регулярного правила в PHP можно применить функцию preg_replace:
$str = preg_replace('~[^\w\pL_-]~u','',$str);
В помощь могу предложить полезную ссылочку на документацию: http://www.arininav.ru/js/perl04.htm
Читайте ещё похожие статьи на этом сайте:
Если Вам понравилась эта статья, пожалуйста оставьте свой комментарий или подпишитесь на RSS-канал и получайте в будущем статьи на RSS Reader.

Так собственно и делаю – регуляры пока впадлу учить!