LanceDBのPythonSDKで全文検索,ベクトル検索,ハイブリッド検索をする
LanceDBのPython SDKを使って,全文検索,ベクトル検索,ハイブリッド検索を試します。
準備
まずはLanceDBのテーブルを作成します。LanceDBのテーブルは,いろいろな方法で作成できますが,ここではembeddingモデルがシームレスに組み込めるPydantic方式で定義します。
# データベースに接続(または新規作成)
=
# sentence-transformersモデルを取得
=
# 映画のタイトルと,そのembeddingを持つテーブルを定義
# LanceModelは特殊なPydanticモデルで,LanceDBのテーブルスキーマを定義する。
# "Vector"タイプが黒魔術になっていて,こう書くと暗黙的にソースフィールドからembeddingが計算されて,vectorフィールドに格納される。
: = # embeddingフィールド
: = # embeddingのソースとなるテキストフィールド
# 初期データ
=
# テーブル名,スキーマ,初期データを指定してテーブルを作成
=
全文検索用のインデックス作成
Table.create_fts_index
メソッドで,全文検索インデックス(=転置インデックス)を作成します。
(オプショナル) ANNインデックスを作成
Table.create_index
メソッドで,近似最近傍検索用のインデックスを作成します。index_type
にIVF_FLAT
を指定するとInverted File Flatインデックスが作成されます。ここでは,ドキュメント数が少ないのでコメントアウト。
#table.create_index(metric="cosine", vector_column_name="vector", index_type="IVF_FLAT")
検索する
Table.search
メソッドで検索を行います。query_type
にfts
(全文検索),vector
(ベクトル検索),hybrid
(ハイブリッド検索)を指定できます。
全文検索
queyr_type
にfts
を指定すると,全文検索になります。
=
Full-text search results:
Parasite is Bong Joon-ho's satirical thriller that made history at the Academy Awards.
"history"という検索キーワードを含む映画だけがヒットする。
ベクトル検索
query_type
にvector
を指定すると,ベクトル検索になります。
=
Vector search results:
Schindler's List is Steven Spielberg's poignant and powerful historical drama about the Holocaust.
Parasite is Bong Joon-ho's satirical thriller that made history at the Academy Awards.
The Godfather is Francis Ford Coppola's epic crime drama often cited as one of the greatest films ever made.
ふんわり,"history"に関連しそうな映画がヒットする。
ハイブリッド検索
ベクトル検索の文脈での「ハイブリッド検索」とは,全文検索とベクトル検索を組み合わせて,より精度の高い検索結果を得ることを指します。query_type
にhybrid
を指定するとハイブリッド検索になります。
=
Hybrid search results:
Parasite is Bong Joon-ho's satirical thriller that made history at the Academy Awards.
Schindler's List is Steven Spielberg's poignant and powerful historical drama about the Holocaust.
The Godfather is Francis Ford Coppola's epic crime drama often cited as one of the greatest films ever made.
ベクトル検索の時と,若干違う結果になります。"history"という検索キーワードを含む映画が1位にヒットしている。
ハイブリッド検索の裏側では,全文検索とベクトル検索をそれぞれ独立に実行したあと,2つの検索結果をマージして,RRF
リランカーでリランクが行われます。そのあたりの詳細は,また別の機会に。