データサイエンス学習記録

ひよっこAIエンジニアの学習記録です。

自然言語処理

【Claude3 vs GPT-4】表の抽出どっちが上手いか

はじめに 表の抽出 表のデータ 実験方法 1. 単純な表の場合 2. セル結合を含む表の場合 3. セル結合を複数含む表の場合 結論 はじめに ドキュメント内に表の情報が埋め込まれている場合が多く、自然言語処理において表を正しく抽出することは重要です。 今回…

埋め込みモデルe5-mistral-7b-instructを使ってみた。

概要 埋め込みモデルe5-mistral-7b-instructを使って、テキスト間のコサイン類似度を計算する方法をまとめる。 ※内容が間違っている可能性があります、ご容赦ください。 e5-mistral-7b-instruct 今回使用する、埋め込みモデルです。 2024年2月17日現在、MTEB…

【LangChain】Ensemble Retrieverを使ってみた。

概要 LangChainのEnsemble Retrieverの使い方をまとめる。 今回はBM25、HuggingFace(sonoisa)、OpenAI(text-embedding-ada-002)の3つでEnsemble Retrieverを使ってみます。 Ensemble Retriever 検索精度を向上させるために、複数の検索結果を使用して順位を…

【LangChain】Faissとコサイン類似度の計算

概要 ベクトルストア(Faiss)とコサイン類似度の計算をまとめる。 Faiss 「Faiss」は、Meta社が開発したライブラリで、文埋め込みのような高次元ベクトルを効率的にインデックス化し、クエリのベクトルに対して高速に検索することができる。 python.langchain…