Удаление HTML тэгов в JavaScritp при помощи регулярных выражений

June 12, 2024

Метод отлично подходит, если необходимо распарсить HTML и передать его далее через REST API в качестве JSON.

Исходный HTML:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
        "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
    <title>This is the page title</title>
</head>
<body>
    <p>
        If the application X doesn't start, the possible causes could be:<br/>
        1. <a href="maven.com">Maven</a> is not installed.<br/>
        2. Not enough disk space.<br/>
        3. Not enough memory.
    </p>
</body>
</html>

В скрипте для вычищения используем метод .replaceAll.

String html = ... // load example1.html
String result = html.replaceAll("<[^>]*>", "");
System.out.println(result);

Результат:

This is the page title

        If the application X doesn't start, the possible causes could be:
        1. Maven is not installed.
        2. Not enough disk space.
        3. Not enough memory.

Существует можнество других более гибких вариантов решить данную проблему при помощи сторонних парсеров. Однако, если вы используете сервисы с ограниченными возможностями подключения сторонних скриптов (наподобии n8n), решение задачи на чистом JS может оказаться вашим единственным вариантом.

Источник