LLMのためにHTMLの構造解析を頑張ってみた
こんにちは!ABEJAのシステム開発部でエンジニアをしている胡です。こちらはABEJA アドベントカレンダー 2024 、7日目の記事です。 この記事では、ウェブサイトから本文をきれいに抽出する方法を色々試してみた話をまとめています。きっかけは、RAG(Retrieval-Augmented Gen
情報元サイト:「ABEJA Tech Blog」
[ オリジナルサイトで見る ]
コメント ( 0 )
トラックバックは利用できません。
こんにちは!ABEJAのシステム開発部でエンジニアをしている胡です。こちらはABEJA アドベントカレンダー 2024 、7日目の記事です。 この記事では、ウェブサイトから本文をきれいに抽出する方法を色々試してみた話をまとめています。きっかけは、RAG(Retrieval-Augmented Gen
情報元サイト:「ABEJA Tech Blog」
[ オリジナルサイトで見る ]
コメント ( 0 )
トラックバックは利用できません。
この記事へのコメントはありません。