il y a 1 an · a65e56c67c
--- a/recipes/finetuning/datasets/chatbot_dataset.py
+++ b/recipes/finetuning/datasets/chatbot_dataset.py
@@ -1,38 +0,0 @@
 
																-# Copyright (c) Meta Platforms, Inc. and affiliates.
															
 
																-# This software may be used and distributed according to the terms of the Llama 3 Community License Agreement.
															
 
																-
															
 
																-
															
 
																-import copy
															
 
																-import datasets
															
 
																-from datasets import Dataset, load_dataset, DatasetDict
															
 
																-import itertools
															
 
																-
															
 
																-
															
 
																-B_INST, E_INST = "[INST]", "[/INST]"
															
 
																-
															
 
																-def tokenize_dialog(q_a_pair, tokenizer):
															
 
																-    question, answer = q_a_pair["Question"], q_a_pair["Answer"]
															
 
																-    prompt_tokens = tokenizer.encode(f"{tokenizer.bos_token}{B_INST} {(question).strip()} {E_INST}", add_special_tokens=False)
															
 
																-    answer_tokens = tokenizer.encode(f"{answer.strip()} {tokenizer.eos_token}", add_special_tokens=False)
															
 
																-    sample = {
															
 
																-            "input_ids": prompt_tokens + answer_tokens,
															
 
																-            "attention_mask" : [1] * (len(prompt_tokens) + len(answer_tokens)),
															
 
																-            "labels": [-100] * len(prompt_tokens) + answer_tokens,
															
 
																-            }
															
 
																-
															
 
																-    return sample
															
 
																-
															
 
																-
															
 
																-def get_custom_dataset(dataset_config, tokenizer, split, split_ratio=0.8):
															
 
																-    dataset_dict = load_dataset('json', data_files=dataset_config.data_path)
															
 
																-    dataset = dataset_dict['train']
															
 
																-    dataset = dataset.train_test_split(test_size=1-split_ratio, shuffle=True, seed=42)
															
 
																-
															
 
																-    dataset = dataset[split].map(lambda sample: {
															
 
																-        "Question": sample["Question"],
															
 
																-        "Answer": sample["Answer"],
															
 
																-        },
															
 
																-        batched=True,
															
 
																-    )
															
 
																-    dataset = dataset.map(lambda x: tokenize_dialog(x, tokenizer))
															
 
																-    return dataset
															
--- a/recipes/finetuning/datasets/raft_dataset.py
+++ b/recipes/finetuning/datasets/raft_dataset.py
@@ -50,12 +50,17 @@ def tokenize_dialog(dialog, tokenizer):
 
																     return dict(combined_tokens, attention_mask=[1]*len(combined_tokens["input_ids"]))
															
 
																 def raft_tokenize(q_a_pair, tokenizer):
															
 
																-    end_tag = "<\/DOCUMENT>\n"
															
 
																+    end_tag = "</DOCUMENT>"
															
 
																     # find the last end_tag in the instruction, the rest is the question
															
 
																-    index =q_a_pair["instruction"].rindex("<\/DOCUMENT>\n")+len(end_tag)
															
 
																-    question = q_a_pair["instruction"][index:]
															
 
																+    try:
															
 
																+        index =q_a_pair["instruction"].rindex(end_tag)+len(end_tag)
															
 
																+    except ValueError:
															
 
																+        print(q_a_pair["instruction"])
															
 
																+        raise Exception("The instruction does not contain the end tag <\/DOCUMENT>")
															
 
																+    # all the lines after end_tag are the question
															
 
																+    question = q_a_pair["instruction"][index:].strip()
															
 
																     # all the lines before end_tag are the context
															
 
																-    documents = q_a_pair["instruction"][:index]
															
 
																+    documents = q_a_pair["instruction"][:index].strip() 
															
 
																     # output is the label
															
 
																     answer = q_a_pair["output"]
															
 
																     system_prompt = "You are a helpful chatbot who can provide an answer to every questions from the user given a relevant context."
															
--- a/recipes/use_cases/end2end-recipes/raft/README.md
+++ b/recipes/use_cases/end2end-recipes/raft/README.md
--- a/recipes/use_cases/end2end-recipes/raft/chatbot.md
+++ b/recipes/use_cases/end2end-recipes/raft/chatbot.md
--- a/recipes/use_cases/end2end-recipes/raft/data/llama_website0613
+++ b/recipes/use_cases/end2end-recipes/raft/data/llama_website0613
--- a/recipes/use_cases/end2end-recipes/raft/data_urls.xml
+++ b/recipes/use_cases/end2end-recipes/raft/data_urls.xml
@@ -1,164 +0,0 @@
 
																-<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/use-policy/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/responsible-use-guide/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/llama2/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/llama2/license/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/llama2/use-policy/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/license/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/code-llama/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/llama3/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/llama3/license/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-guard-2</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/model-cards-and-prompt-formats/meta-code-llama-70b</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-guard-1</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/model-cards-and-prompt-formats/meta-code-llama</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-2</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/getting_the_models</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/getting-the-models/hugging-face</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/getting-the-models/kaggle</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/llama-everywhere</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/llama-everywhere/running-meta-llama-on-linux/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/llama-everywhere/running-meta-llama-on-windows/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/llama-everywhere/running-meta-llama-on-mac/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/llama-everywhere/running-meta-llama-in-the-cloud/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/how-to-guides/fine-tuning</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/how-to-guides/quantization</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/how-to-guides/prompting</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/how-to-guides/validation</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/integration-guides/meta-code-llama</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/integration-guides/langchain</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://llama.meta.com/docs/integration-guides/llamaindex</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/llama-recipes/main/README.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/llama/main/MODEL_CARD.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/llama/main/README.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/llama3/main/MODEL_CARD.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/llama3/main/README.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/codellama/main/MODEL_CARD.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/codellama/main/README.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/PurpleLlama/main/README.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/PurpleLlama/main/Llama-Guard2/MODEL_CARD.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/PurpleLlama/main/Llama-Guard2/README.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>http://raw.githubusercontent.com/meta-llama/PurpleLlama/main/Llama-Guard/MODEL_CARD.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>https://hamel.dev/notes/llm/inference/03_inference.html</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>https://www.anyscale.com/blog/continuous-batching-llm-inference</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>https://github.com/huggingface/peft</loc>
															
 
																-</url><url>
															
 
																-<loc>https://github.com/facebookresearch/llama-recipes/blob/main/docs/LLM_finetuning.md</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>https://github.com/meta-llama/llama-recipes/blob/main/recipes/finetuning/datasets/README.md</loc>
															
 
																-</url><url>
															
 
																-<loc>https://www.databricks.com/blog/efficient-fine-tuning-lora-guide-llms</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>https://www.wandb.courses/courses/training-fine-tuning-LLMs</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>https://www.snowflake.com/blog/meta-code-llama-testing/</loc>
															
 
																-</url><url>
															
 
																-<loc>https://www.phind.com/blog/code-llama-beats-gpt4</loc>
															
 
																-</url>
															
 
																-<loc>https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>https://ragntune.com/blog/gpt3.5-vs-llama2-finetuning</loc>
															
 
																-</url><url>
															
 
																-<loc>https://deci.ai/blog/fine-tune-llama-2-with-lora-for-question-answering/</loc>
															
 
																-</url>
															
 
																-<url>
															
 
																-<loc>https://replicate.com/blog/fine-tune-translation-model-axolotl</loc>
															
 
																-</url><url>
															
 
																-<loc>https://huyenchip.com/2023/04/11/llm-engineering.html</loc>
															
 
																-</url>
															
 
																-</urlset>
															
--- a/recipes/use_cases/end2end-recipes/raft/images/Answers_Precision.png
+++ b/recipes/use_cases/end2end-recipes/raft/images/Answers_Precision.png
--- a/recipes/use_cases/end2end-recipes/raft/images/LLM_score_comparison.png
+++ b/recipes/use_cases/end2end-recipes/raft/images/LLM_score_comparison.png
--- a/recipes/use_cases/end2end-recipes/raft/images/Num_of_refusal_comparison.png
+++ b/recipes/use_cases/end2end-recipes/raft/images/Num_of_refusal_comparison.png
--- a/recipes/use_cases/end2end-recipes/raft/images/RAFT.png
+++ b/recipes/use_cases/end2end-recipes/raft/images/RAFT.png
--- a/recipes/use_cases/end2end-recipes/raft/raft.py
+++ b/recipes/use_cases/end2end-recipes/raft/raft.py
@@ -16,12 +16,8 @@ def main(api_config):
 
																         if not chunk_questions_zip:
															
 
																             logging.warning("No questions generated from text. Please check the api_config or model configuration.")
															
 
																             return
															
 
																-        for chunk, questions in chunk_questions_zip:
															
 
																-            logging.info(f"Chunk: {chunk}, question length: {len(questions)}")
															
 
																-            for question in questions:
															
 
																-                logging.info(f"Question: {question}")
															
 
																         logging.info(f"Successfully generated {sum([len(q) for c,q in chunk_questions_zip])} question/answer pairs.")
															
 
																-        ds = add_chunk_to_dataset(chunk_questions_zip,api_config,ds)
															
 
																+        ds = add_chunk_to_dataset(chunk_questions_zip,api_config)
															
 
																         ds.save_to_disk(args.output)
															
 
																         logging.info(f"Data successfully written to {api_config['output']}. Process completed.")
															
 
																         formatter = DatasetConverter()
															
@@ -40,7 +36,7 @@ def parse_arguments():
 
																     parser.add_argument(
															
 
																         "-t", "--questions_per_chunk",
															
 
																         type=int,
															
 
																-        default=3,
															
 
																+        default=4,
															
 
																         help="Specify the number of question pairs to generate per chunk."
															
 
																     )
															
 
																     parser.add_argument(
															
@@ -87,7 +83,7 @@ if __name__ == "__main__":
 
																         api_config["api_key"] = os.environ["API_KEY"]
															
 
																     logging.info(f"Configuration loaded. Generating {args.questions_per_chunk} question per chunk using model '{args.model}'.")
															
 
																     logging.info(f"Chunk size: {args.chunk_size}.")
															
 
																-    logging.info(f"num_distract_docs: {api_config['num_distract_docs']}, oracle_p: {api_config['oracle_p']}")
															
 
																+    logging.info(f"num_distract_docs: {api_config['num_distract_docs']}, refusal_probability: {api_config['refusal_probability']}")
															
 
																     logging.info(f"Will use endpoint_url: {args.endpoint_url}.")
															
 
																     logging.info(f"Output will be written to {args.output}.")
															
 
																     main(api_config)
															
--- a/recipes/use_cases/end2end-recipes/raft/raft.yaml
+++ b/recipes/use_cases/end2end-recipes/raft/raft.yaml
@@ -46,6 +46,6 @@ chunk_size: 1000
 
																 questions_per_chunk: 5
															
 
																-num_distract_docs: 5 # number of distracting documents to add to each chunk
															
 
																+num_distract_docs: 4 # number of distracting documents to add to each chunk
															
 
																-oracle_p: 0.8 # probability of related documents to be added to each chunk
															
 
																+refusal_probability: 0.05 # probability of related documents to be added to each chunk
															
--- a/recipes/use_cases/end2end-recipes/raft/raft_eval.py
+++ b/recipes/use_cases/end2end-recipes/raft/raft_eval.py
@@ -16,7 +16,6 @@ import re
 
																 import string
															
 
																 import pandas as pd 
															
 
																 from langchain.retrievers.document_compressors import FlashrankRerank
															
 
																-from transformers import AutoTokenizer
															
 
																 def generate_answers_model_only(model_name,question_list,api_url="http://localhost:8000/v1",key="EMPTY"):
															
@@ -48,15 +47,7 @@ def build_retriever(api_config,embedding_model_name,retrieved_docs_num=5):
 
																     loader = DirectoryLoader(api_config['data_dir'])
															
 
																     docs = loader.load()
															
 
																     # Split the document into chunks with a specified chunk size
															
 
																-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=api_config["chunk_size"],chunk_overlap=int(api_config["chunk_size"] / 10),add_start_index=True,strip_whitespace=True)
															
 
																-    # text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
															
 
																-    #     AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B"),
															
 
																-    #     chunk_size=api_config["chunk_size"],
															
 
																-    #     chunk_overlap=int(api_config["chunk_size"] / 10),
															
 
																-    #     add_start_index=True,
															
 
																-    #     strip_whitespace=True,
															
 
																-    #     separators=["\n\n", "\n", ".", " ", ""],
															
 
																-    # )
															
 
																+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=api_config["chunk_size"],chunk_overlap=int(api_config["chunk_size"] / 10),separators= ["----------","\n\n", "\n", " ", ""],strip_whitespace=True)
															
 
																     docs_processed = text_splitter.split_documents(docs)
															
 
																     # Remove duplicates
															
 
																     unique_texts = {}
															
@@ -65,7 +56,7 @@ def build_retriever(api_config,embedding_model_name,retrieved_docs_num=5):
 
																         if doc.page_content not in unique_texts:
															
 
																             unique_texts[doc.page_content] = True
															
 
																             docs_processed_unique.append(doc)
															
 
																-
															
 
																+    logging.info(f"Total number of docs_processed used by vectorstore: {len(docs_processed_unique)}")
															
 
																     # Store the document into a vector store with a specific embedding model
															
 
																     embedding_model = HuggingFaceEmbeddings(
															
 
																         model_name=embedding_model_name,
															
@@ -78,7 +69,7 @@ def build_retriever(api_config,embedding_model_name,retrieved_docs_num=5):
 
																     )
															
 
																     return retriever
															
 
																 def generate_answers_with_RAG(model_name, question_list,api_config,retriever,api_url_overwrite=None):
															
 
																-    api_url = "http://localhost:"+str(api_config['vllm_endpoint'])+"/v1"
															
 
																+    api_url = api_config['model_endpoint_url']
															
 
																     if api_url_overwrite:
															
 
																         api_url = api_url_overwrite
															
 
																     key = api_config['api_key']
															
@@ -206,8 +197,8 @@ def score_single(api_config,generated,reference,questions, run_exact_match=True,
 
																         metric["BERTScore_Precision"] = P
															
 
																         metric["BERTScore_Recall"] = R
															
 
																         metric["BERTScore_F1"] = F1
															
 
																-    if api_config["judge_endpoint"] and run_llm_as_judge:
															
 
																-        api_url = "http://localhost:"+str(api_config["judge_endpoint"])+"/v1"
															
 
																+    if api_config["judge_endpoint_url"] and run_llm_as_judge:
															
 
																+        api_url = api_config["judge_endpoint_url"]
															
 
																         LLM_judge_score,judge_responses = compute_judge_score(questions, generated, reference, api_config,api_url=api_url)
															
 
																         metric["LLM_judge_score"] = LLM_judge_score
															
 
																         metric["LLM_judge_responses"] = judge_responses
															
@@ -220,7 +211,7 @@ def score_single(api_config,generated,reference,questions, run_exact_match=True,
 
																 def main(api_config):
															
 
																     # Since the eval set is small, we can run the eval without async functions
															
 
																     try:
															
 
																-        api_url = "http://localhost:"+str(api_config["vllm_endpoint"])+"/v1"
															
 
																+        api_url = api_config["model_endpoint_url"]
															
 
																         logging.info("Starting to generate answer given the eval set.")
															
 
																         questions,groud_truth = [],[]
															
 
																         if api_config["eval_file"].endswith(".parquet"):
															
@@ -234,15 +225,7 @@ def main(api_config):
 
																                 for index, item in enumerate(eval_file):
															
 
																                     questions.append(item["question"])
															
 
																                     groud_truth.append(item["answer"])
															
 
																-        generated_answers = {
															
 
																-            "RAFT": [],
															
 
																-            "RAFT_RAG": [],
															
 
																-            "Baseline": [],
															
 
																-            "Baseline_RAG": [],
															
 
																-            "70B_RAG": [],
															
 
																-            "70B_Base": [],
															
 
																-            
															
 
																-        }
															
 
																+        generated_answers = {}            
															
 
																         # build retriver
															
 
																         retriever = build_retriever(api_config,"sentence-transformers/multi-qa-mpnet-base-cos-v1",api_config["rag_topk"])
															
 
																         # Generate answers for 8B models
															
@@ -251,11 +234,11 @@ def main(api_config):
 
																         generated_answers[model_name+"_RAG"] = generate_answers_with_RAG(model_name, questions,api_config,retriever)
															
 
																         print("Finished generating answers for ", model_name)
															
 
																         large_model_name = "meta-llama/Meta-Llama-3-70B-Instruct"
															
 
																-        large_api_url = "http://localhost:"+str(api_config["judge_endpoint"])+"/v1"
															
 
																-        generated_answers["70B_Base"] = generate_answers_model_only(large_model_name,questions,large_api_url)
															
 
																-        generated_answers["70B_RAG"] = generate_answers_with_RAG(large_model_name, questions,api_config,retriever,large_api_url)
															
 
																+        large_api_url = api_config["judge_endpoint_url"]
															
 
																+        #generated_answers["70B_Base"] = generate_answers_model_only(large_model_name,questions,large_api_url)
															
 
																+        #generated_answers["70B_RAG"] = generate_answers_with_RAG(large_model_name, questions,api_config,retriever,large_api_url)
															
 
																         print("Finished generating answers for ", large_model_name)
															
 
																-        logging.info(f"Successfully generated {len(generated_answers[model_name])} answers for all models.")
															
 
																+        logging.info(f"Successfully generated {len(generated_answers[model_name+'_RAG'])} answers for all models.")
															
 
																         # for generate answer from each model, compute the score metric
															
 
																         all_metrics = []
															
 
																         output_file = api_config["output_log"]+str(datetime.now().strftime("%Y%m%d_%H%M%S"))
															
@@ -272,7 +255,7 @@ def main(api_config):
 
																                 fp.write(f"BERTScore Precision: {metric['BERTScore_Precision']:.4f}, Recall: {metric['BERTScore_Recall']:.4f}, F1: {metric['BERTScore_F1']:.4f} \n")
															
 
																                 fp.write(f"Exact_match_percentage: {metric['Exact_match']} \n")
															
 
																                 judge_responses = ["None"] * len(questions)
															
 
																-                if api_config["judge_endpoint"]:
															
 
																+                if api_config["judge_endpoint_url"]:
															
 
																                     fp.write(f"LLM_judge_score: {metric['LLM_judge_score']} \n")
															
 
																                     judge_responses = metric["LLM_judge_responses"]
															
 
																                     all_metrics.append((model_name,metric['LLM_judge_score'],metric["LLM_judge_responses"]))
															
@@ -330,16 +313,16 @@ def parse_arguments():
 
																         help="Provide the data folder path to build RAG for evaluation. If not specified, the data_dir in eval_config.yaml will be used."
															
 
																     )
															
 
																     parser.add_argument(
															
 
																-        "-v", "--vllm_endpoint",
															
 
																-        default=8000,
															
 
																-        type=int,
															
 
																-        help="If a port is specified, then use local vllm endpoint for eval."
															
 
																+        "-u", "--model_endpoint_url",
															
 
																+        default="http://localhost:8000/v1",
															
 
																+        type=str,
															
 
																+        help="The raft model endpoint url for eval."
															
 
																     )
															
 
																     parser.add_argument(
															
 
																-        "-j", "--judge_endpoint",
															
 
																+        "-j", "--judge_endpoint_url",
															
 
																         default=None,
															
 
																-        type=int,
															
 
																-        help="If a port is specified, then use local vllm endpoint as judge LLM."
															
 
																+        type=str,
															
 
																+        help="The large model endpoint url for judge as LLM."
															
 
																     )
															
 
																     parser.add_argument(
															
 
																         "-o", "--output_log",
															
@@ -371,12 +354,12 @@ if __name__ == "__main__":
 
																     logging.info("Initializing the process and loading configuration...")
															
 
																     args = parse_arguments()
															
 
																     api_config = load_config(args.config_path)
															
 
																-    api_config["vllm_endpoint"] = args.vllm_endpoint
															
 
																+    api_config["model_endpoint_url"] = args.model_endpoint_url
															
 
																     if args.data_dir:
															
 
																         api_config["data_dir"] = args.data_dir
															
 
																-    if args.raft_model_name:
															
 
																+    if args.model_name:
															
 
																         api_config["model_name"] = args.model_name
															
 
																-    api_config["judge_endpoint"] = args.judge_endpoint
															
 
																+    api_config["judge_endpoint_url"] = args.judge_endpoint_url
															
 
																     api_config["output_log"] = args.output_log
															
 
																     api_config["api_key"] = args.api_key
															
 
																     api_config["chunk_size"] = args.chunk_size
															
@@ -384,6 +367,6 @@ if __name__ == "__main__":
 
																     api_config["rerank_topk"] = args.rerank_topk
															
 
																     if api_config["rag_topk"] < api_config["rerank_topk"]:
															
 
																         logging.error("The rerank_topk should be smaller than rag_topk.")
															
 
																-    if api_config["judge_endpoint"]:
															
 
																-        logging.info(f"Use local vllm service for judge at port: '{args.judge_endpoint}'.")
															
 
																+    if api_config["judge_endpoint_url"]:
															
 
																+        logging.info(f"The judge model url is: '{args.judge_endpoint_url}'.")
															
 
																     main(api_config)
															
--- a/recipes/use_cases/end2end-recipes/raft/raft_utils.py
+++ b/recipes/use_cases/end2end-recipes/raft/raft_utils.py
@@ -4,14 +4,12 @@
 
																 import os
															
 
																 import logging
															
 
																 from langchain.text_splitter import RecursiveCharacterTextSplitter
															
 
																-from math import ceil
															
 
																 from datasets import Dataset
															
 
																 import random
															
 
																 from langchain_community.document_loaders import SitemapLoader,DirectoryLoader
															
 
																 from bs4 import BeautifulSoup
															
 
																-import copy
															
 
																 from langchain_openai import ChatOpenAI
															
 
																-
															
 
																+import copy
															
 
																 # Initialize logging
															
@@ -32,17 +30,10 @@ def strip_str(s: str) -> str:
 
																     r += 2
															
 
																     return s[l:min(r, len(s))]
															
 
																 def clean_documents(raw_text):
															
 
																-    unwanted= ["Technology",
															
 
																-    "Getting Started",
															
 
																-    "Trust & Safety",
															
 
																-    "Community",
															
 
																-    "Resources",
															
 
																-    "Skip to main content",
															
 
																-    "How-to guides"]
															
 
																     all_lines = []
															
 
																     for line in raw_text.split("\n"):
															
 
																         line = line.strip()
															
 
																-        if line in unwanted or len(line.split()) == 0:
															
 
																+        if len(line.split()) == 0:
															
 
																             continue
															
 
																         else:
															
 
																             all_lines.append(line)
															
@@ -73,7 +64,7 @@ def read_file_content(xml_path: str, data_folder: str) -> str:
 
																         sitemap_loader = SitemapLoader(web_path=xml_path,is_local=True,parsing_function=clean_text)
															
 
																         sitemap_loader.requests_kwargs = {"verify": False}
															
 
																         docs = sitemap_loader.load()
															
 
																-        return "\n".join([doc.page_content for doc in docs])
															
 
																+        return docs
															
 
																     elif len(data_folder) != 0:
															
 
																         if not os.path.exists(data_folder):
															
 
																             logging.info(f"Error: {data_folder} does not exist")
															
@@ -81,30 +72,35 @@ def read_file_content(xml_path: str, data_folder: str) -> str:
 
																         # Use langchain to load the documents from data folder
															
 
																         loader = DirectoryLoader(data_folder)
															
 
																         docs = loader.load()
															
 
																-        text = "\n".join([clean_documents(doc.page_content) for doc in docs])
															
 
																-        return text
															
 
																+        return docs
															
 
																 def get_chunks(
															
 
																-    text: str,
															
 
																-    chunk_size: int = 512,
															
 
																+    docs: list,
															
 
																+    chunk_size: int = 1000,
															
 
																     api_config: dict = None,
															
 
																 ) -> list[str]:
															
 
																     """
															
 
																-    Takes in a `file_path` and `doctype`, retrieves the document, breaks it down into chunks of size
															
 
																+    Takes in a list of documents, breaks them down into chunks of size
															
 
																     `chunk_size`, and returns the chunks.
															
 
																     """
															
 
																     chunks = []
															
 
																-    if  len(text) == 0:
															
 
																+    if  len(docs) == 0:
															
 
																         raise TypeError("Can not get chunks from empty text")
															
 
																     else:
															
 
																-        num_chunks = ceil(len(text) / chunk_size)
															
 
																-        logging.info(f"Splitting text into {num_chunks} chunks")
															
 
																-        text_splitter = RecursiveCharacterTextSplitter(chunk_size=api_config["chunk_size"], chunk_overlap=int(api_config["chunk_size"]/10))
															
 
																-        chunks = text_splitter.create_documents([text])
															
 
																-        chunks = [chunk.page_content for chunk in chunks]
															
 
																-
															
 
																+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=api_config["chunk_size"],chunk_overlap=int(api_config["chunk_size"] / 10),separators= ["----------","\n\n", "\n", " "],strip_whitespace=True)
															
 
																+        docs_processed = text_splitter.split_documents(docs)
															
 
																+        logging.info(f"Total number of docs_processed: {len(docs_processed)}")
															
 
																+        # Remove duplicates
															
 
																+        unique_texts = {}
															
 
																+        docs_processed_unique = []
															
 
																+        for doc in docs_processed:
															
 
																+            if doc.page_content not in unique_texts and len(doc.page_content) > 100 :
															
 
																+                unique_texts[doc.page_content] = True
															
 
																+                docs_processed_unique.append(doc)        
															
 
																+        chunks = [chunk.page_content for chunk in docs_processed_unique]
															
 
																+        logging.info(f"Total number of docs_processed_unique: {len(docs_processed_unique)}")
															
 
																     return chunks
															
 
																 # read all the files in the data folder, then split them into chunks
															
 
																 # generate questions for each chunk and return zip of chunk and related questions list
															
@@ -112,10 +108,10 @@ def generate_questions(api_config):
 
																     # get documents from the data folder or xml file
															
 
																     api_url = api_config["endpoint_url"]
															
 
																     key = api_config["api_key"]
															
 
																-    document_text = read_file_content(api_config["xml_path"],api_config["data_dir"])
															
 
																-    if len(document_text) == 0:
															
 
																-        logging.info(f"Error reading files, document_text is {len(document_text)}")
															
 
																-    document_batches = get_chunks(document_text,api_config["chunk_size"],api_config)
															
 
																+    documents = read_file_content(api_config["xml_path"],api_config["data_dir"])
															
 
																+    if len(documents) == 0:
															
 
																+        logging.info(f"Error reading files, document_text is {len(documents)}")
															
 
																+    document_batches = get_chunks(documents,api_config["chunk_size"],api_config)
															
 
																     # use OpenAI API protocol to hanlde the chat request, including local VLLM openai compatible server
															
 
																     llm = ChatOpenAI(
															
 
																         openai_api_key=key,
															
@@ -146,11 +142,16 @@ def generate_questions(api_config):
 
																 def generate_COT(chunk_questions_zip,api_config) -> dict:
															
 
																     all_tasks = []
															
 
																     chunk_questions = []
															
 
																+    question_asked = set()
															
 
																     for document_content,questions in chunk_questions_zip:
															
 
																         for question in questions:
															
 
																-            prompt = api_config['COT_prompt_template'].format(question=question,context=str(document_content))
															
 
																-            all_tasks.append(prompt)
															
 
																-            chunk_questions.append((document_content,question))
															
 
																+            question = question.strip()
															
 
																+            # avoid asking the same question twice
															
 
																+            if question not in question_asked:
															
 
																+                question_asked.add(question)
															
 
																+                prompt = api_config['COT_prompt_template'].format(question=question,context=str(document_content))
															
 
																+                all_tasks.append(prompt)
															
 
																+                chunk_questions.append((document_content,question))
															
 
																     # use OpenAI API protocol to hanlde the chat request, including local VLLM openai compatible server
															
 
																     llm = ChatOpenAI(
															
 
																         openai_api_key=api_config["api_key"],
															
@@ -170,17 +171,20 @@ def generate_COT(chunk_questions_zip,api_config) -> dict:
 
																 def add_chunk_to_dataset(
															
 
																     chunk_questions_zip: list,
															
 
																     api_config: dict,
															
 
																-    ds,
															
 
																 ) -> None:
															
 
																     """
															
 
																     Given a chunk and related questions lists, create {Q, A, D} triplets and add them to the dataset.
															
 
																     """
															
 
																     num_distract = api_config["num_distract_docs"]
															
 
																-    p = api_config["oracle_p"]
															
 
																+    p = api_config["refusal_probability"]
															
 
																     chunks = [chunk for chunk, _ in chunk_questions_zip]
															
 
																     COT_results = generate_COT(chunk_questions_zip,api_config)
															
 
																+    logging.info(f"COT generation completed, total num of COT results: {len(COT_results)}")
															
 
																+    completed,refusal= 0,0
															
 
																+    data_list = []
															
 
																     for chunk, q , cot in COT_results:
															
 
																         # The COT answer will be used as the label in the fine-tuning stage
															
 
																+
															
 
																         datapt = {
															
 
																             "id": None,
															
 
																             "type": "general",
															
@@ -190,8 +194,7 @@ def add_chunk_to_dataset(
 
																             "cot_answer": cot
															
 
																         }
															
 
																         i = chunks.index(chunk)
															
 
																-        datapt["id"] = f"seed_task_{0 if not ds else ds.num_rows}"
															
 
																-
															
 
																+        datapt["id"] = f"seed_task_{len(data_list)}"
															
 
																         # add num_distract distractor docs
															
 
																         docs = [chunk]
															
 
																         indices = list(range(0, len(chunks)))
															
@@ -219,29 +222,24 @@ def add_chunk_to_dataset(
 
																         datapt["instruction"] = context
															
 
																         datapt_copy = copy.deepcopy(datapt)
															
 
																         # add to dataset
															
 
																-        if not ds:
															
 
																-            # init ds
															
 
																-            datapt["id"] = [datapt["id"]]
															
 
																-            datapt["type"] = [datapt["type"]]
															
 
																-            datapt["question"] = [datapt["question"]]
															
 
																-            datapt["context"] = [datapt["context"]]
															
 
																-            datapt["oracle_context"] = [datapt["oracle_context"]]
															
 
																-            datapt["cot_answer"] = [datapt["cot_answer"]]
															
 
																-            datapt["instruction"] = [datapt["instruction"]]
															
 
																-            ds = Dataset.from_dict(datapt)
															
 
																-        else:
															
 
																-            ds = ds.add_item(datapt)
															
 
																+        data_list.append(datapt)
															
 
																         # decides whether to add refusal example where the related documents are not provided
															
 
																-        oracle = random.uniform(0, 1) < p
															
 
																-        if not oracle:
															
 
																+        refusal = random.uniform(0, 1) <= p
															
 
																+        if refusal:
															
 
																             doc_copy[0] = chunks[random.sample(indices, 1)[0]]
															
 
																             random.shuffle(doc_copy)
															
 
																-            context = ""
															
 
																+            refusl_context = ""
															
 
																             for doc in doc_copy:
															
 
																-                context += "<DOCUMENT>" + str(doc) + "</DOCUMENT>\n"
															
 
																-            context += q
															
 
																+                refusl_context += "<DOCUMENT>" + str(doc) + "</DOCUMENT>\n"
															
 
																+            refusl_context += q
															
 
																             # This instruction will be used in the fine-tuning stage
															
 
																-            datapt_copy["instruction"] = context
															
 
																+            datapt_copy["id"] = f"refusal_task_{len(data_list)}"
															
 
																+            datapt_copy["instruction"] = refusl_context
															
 
																             datapt_copy["cot_answer"] = "Sorry, I don't know the answer to this question because related documents are not found. Please try again."
															
 
																-            ds.add_item(datapt_copy)
															
 
																+            data_list.append(datapt_copy)
															
 
																+            refusal += 1
															
 
																+        completed += 1
															
 
																+        if completed % 100 == 0:
															
 
																+            logging.info(f"refusal example added: {refusal}, total examples added: {completed}, total examples to be added: {len(COT_results)- completed}")
															
 
																+    ds = Dataset.from_list(data_list)
															
 
																     return ds