moteur de recherche GPT-3

Créer un moteur de recherche avec GPT-3

L’avènement des grands modèles de langage

Différents types de moteurs de recherche

Comment créer un moteur de recherche avec GPT-3

de haystack.utils importer convert_files_to_docs, clean_wiki_text 

docs = convert_files_to_docs(dir_path=DOC_DIR, clean_func=clean_wiki_text, split_paragraphs= True )
from haystack.nodes import PreProcessor preprocessor 

= PreProcessor( 
clean_empty_lines= True , 
clean_whitespace= True , 
clean_header_footer= False , 
split_by=”word”, 
split_length= 100 , 
split_overlap= 3 , 
split_respect_sentence_boundary= False , 
) 

processor_docs = preprocessor.process(docs)
documents_traités[ 0 ]
<Document : {'content' : 'Le U-Bahn de Berlin (en allemand : [ˈuː baːn] ; abréviation de Untergrundbahn, "chemin de fer souterrain") est un système de transport en commun rapide à Berlin, la capitale et la plus grande ville d'Allemagne, et un important partie du système de transport public de la ville. Avec le S-Bahn, un réseau de lignes de trains de banlieue et un réseau de tramway qui dessert principalement les parties orientales de la ville, il sert de principal moyen de transport dans la capitale.\nOuvert en 1902, le U-Bahn dessert 175 stations[1] réparties sur neuf lignes, avec une longueur totale de voie de 155,4 kilomètres (96 miles 45 chaînes),[3] dont environ 80 % sont souterrains.[4] Trains run', 
'content_type': 'text', 
'score' : Aucun, 
'meta' : {'name' : 'Berlin U-Bahn.txt', '_split_id' :

'identifiant' : 'd2bf58a531b2500250650b43b1cce290'}>
depuis haystack.document_stores import FAISSDocumentStore 

document_store = FAISSDocumentStore(faiss_index_factory_str=”Flat”, embedding_dim= 1536 )
document_store.delete_documents() 
document_store.write_documents(processed_docs)
depuis haystack.nodes import EmbeddingRetriever 

retriever = EmbeddingRetriever( 
document_store=document_store, 
embedding_model=”text-embedding-ada-002 ", 
batch_size = 32, 
api_key=MY_API_KEY, 
max_seq_len = 1024 
)
document_store.update_embeddings(récupérateur)
à partir de haystack.nodes , importez le générateur OpenAIAnswerGenerator 

= OpenAIAnswerGenerator(api_key=MY_API_KEY, model='text-davinci-003 ', temperature=.5, max_tokens=30)
from haystack.pipelines import GenerativeQAPipeline 

gpt_search_engine = GenerativeQAPipeline(generator=generator, retriever=retriever)

Interroger le pipeline

query = 'Pour quoi Berlin est- elle connue ? ' 
params = {"Récupérateur": {"top_k": 5 }, "Générateur": {"top_k": 1 }} 

réponse = gpt_search_engine.run(query=query, params=params)
depuis haystack.utils import print_answers 

print_answers(answer, details=”minimum”)
>>>  Question : Pourquoi Berlin est- elle connue ? 
Réponses : 
[ { 'réponse' : ' Berlin est connue pour sa culture diversifiée, sa vie nocturne, ' 
' ses arts contemporains et sa qualité de vie élevée.'}]
generator.predict("Pourquoi Berlin est- elle connue ?", documents=[processed_docs[ 0 ]])
>>>  Question : Pourquoi Berlin est- elle connue ? 
Réponses : 
[ { 'answer' : ' Le U-Bahn de Berlin.'}]
Question : Quelle est la meilleure période pour visiter Berlin ? 
Réponses : 
[ { 'answer': ' Berlin est une ville formidable à visiter toute l' année , mais le meilleur ' 
' moment pour visiter est pendant les mois d'été, de juin à ' 
' août.'}]
Question : Les habitants de Berlin ont-ils un dialecte ? 
Réponses : 
[ { 'answer': ' Oui, les habitants de Berlin ont un dialecte, qui est une variante ' 
'du dialecte brandebourgeois.'}]
Question : Parlez-moi de quelques bâtiments intéressants à Berlin. 
Réponses : 
[ { 'réponse' : ' La tour de télévision de Berlin est une tour de télévision à Berlin, en Allemagne. C'est la structure la plus 
haute de Berlin , à une hauteur de 1 207 pieds . “}]
Question : Comment la tour de télévision a-t-elle été construite ? 
Réponses : 
[ { 'answer': ' La tour de télévision a été construite par une équipe d'architectes entre ' 
' 1965  et  1969. La tour a été construite en un temps record de ' 
' seulement 53 mois,'}]
Question : Comment la tour de télévision a-t-elle été construite ? 
Réponses : 
[ { 'answer': ' La tour de télévision a été construite par les troupes soviétiques en mettant le ' 
' contenu en feu et en transformant la tour en une ' 
' cheminée de fortune.'}]
Question : Berlin est-il un bon endroit pour sortir en boîte ? 
Réponses : 
[ { 'answer': ' Oui, Berlin est un bon endroit pour sortir en boîte. Il existe de nombreuses ' 
  'boîtes de nuit, dont le Watergate, le Tresor et le Berghain.}]
Question : Berlin est-il un bon endroit pour sortir en boîte ? 
Réponses : 
[ { 'réponse' : 'Les fêtards en Allemagne portent souvent un toast au Nouvel An avec un verre ' 
'de vin mousseux', 
'contexte' : 'ke place dans toute la ville. En Allemagne, les fêtards ' ' toastent 
souvent le Nouvel An avec un verre de vin mousseux.\n' 
'Berlin abrite 44 théâtres et '}, { 'answer' : "La scène des clubs de Berlin est un lieu 
de vie nocturne de premier ordre", 
'contexte' : 'particulièrement celles d' Europe occidentale et centrale, faites '
« La scène des clubs de Berlin est un lieu de vie nocturne de premier ordre. Après la « 
'chute du mur de Berlin en  1989 , beaucoup de salut'}]

Devez-vous utiliser l’assurance qualité générative ou extractive ?

Haystack : le cadre principal pour la création de moteurs de recherche

Retour en haut