LLMのためにHTMLの構造解析を頑張ってみた

こんにちは!ABEJAのシステム開発部でエンジニアをしている胡です。こちらはABEJA アドベントカレンダー 2024 、7日目の記事です。 この記事では、ウェブサイトから本文をきれいに抽出する方法を色々試してみた話をまとめています。きっかけは、RAG(Retrieval-Augmented Gen
情報元サイト:「ABEJA Tech Blog」
[ オリジナルサイトで見る ]

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。