Iniciando com o parser Html Agility Pack

Html Agility Pack é um parser HTML que constrói uma leitura a partir dos dados do DOM e suporta XPATH simples ou XSLT. É uma biblioteca de código .NET que permite analisar “out of the Web” arquivos HTML. O analisador é muito tolerante com o ” mundo real ” HTML malformado. O modelo de objeto é muito semelhante ao que propõe System.Xml por isto sua busca se torna tão simples.

Primeiro faça o download do mesmo ou via nuget também.

Bom, então, vamos ao código:

HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument();

// Existem várias opções, utilize o que lhe ajuda mais, porém pode deixar o mais padrão possível.
htmlDoc.OptionFixNestedTags=true;

// arquivo em html
htmlDoc.Load(filePath);

// Utilize:  htmlDoc.LoadHtml(xmlString);   para carregar uma string

// Verifica se existe erros
if (htmlDoc.ParseErrors != null && htmlDoc.ParseErrors.Count() > 0)
{
    // Lidar com erros

}
else
{

    if (htmlDoc.DocumentNode != null)
    {
    // Realiza a logica do parse
        HtmlAgilityPack.HtmlNode bodyNode = htmlDoc.DocumentNode.SelectSingleNode("//body");

        if (bodyNode != null)
        {
            // Realiza a logica do parse
        }
    }
}

Veja um código de utilização simples:

/* -- Considerando este HTML
<h2>
  <a href="">Jack</a>
</h2>
<ul>
  <li class="tel">
    <a href="">81 75 53 60</a>
  </li>
</ul>
<h2>
  <a href="">Roy</a>
</h2>
<ul>
  <li class="tel">
    <a href="">44 52 16 87</a>
  </li>
</ul>
*/

//Utilização

string url = "http://website.com";
var Webget = new HtmlWeb();
var doc = Webget.Load(url);
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//h2//a"))
{
  names.Add(node.ChildNodes[0].InnerHtml);
}
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//li[@class='tel']//a"))
{
  phones.Add(node.ChildNodes[0].InnerHtml);
}

Viu só como é simples?

Um grande abraço a todos!

Iniciando com o parser Html Agility Pack

O que é a Ecma e qual é sua relação com C#?

Boas práticas de criação, armazenamento e validação de senhas em .NET

UUID vs ULID: comparação e exemplos em C#

1000 livros gratuitos sobre programação!

Mais de 200 livros de programação gratuitos em português

1000 livros gratuitos sobre programação!

Google lança versão “invisível” do reCAPTCHA!

Mini curso de HTML5 oferecido pela Microsoft

O que significa ( !important ) na declaração do CSS ?

Programa para supercompactar arquivos. KGB Archiver.

Rate limiting não é só proteção contra abuso. É contrato de capacidade

Feature flag não é interruptor. É dívida operacional com prazo de validade

O modelo é infraestrutura: por que LLM deveria ser adapter, não o centro da sua arquitetura

O novo gargalo não é escrever código. É absorver mudança com qualidade

A próxima geração de arquitetura será julgada por tempo de entendimento, não só por tempo de resposta

Iniciando com o parser Html Agility Pack

Posts Relacionados