Spaces:

Cbphcr
/

ct_test

Sleeping

App Files Files Community

ct_test / eval_exp.py

Cbphcr

Init repo

dfe35ce verified 3 months ago

raw

history blame contribute delete

7.86 kB

	import os
	import jsonschema
	import pandas as pd
	from jsonschema import validate
	from chinatravel.data.load_datasets import load_query
	from chinatravel.evaluation.utils import load_json_file
	from chinatravel.symbol_verification.commonsense_constraint import (
	Is_time_correct,
	Is_space_correct,
	Is_hotels_correct,
	Is_transport_correct,
	Is_attractions_correct,
	Is_restaurants_correct,
	Is_intercity_transport_correct,
	)
	from chinatravel.symbol_verification.hard_constraint import evaluate_constraints_py

	os.environ["HF_DATASETS_OFFLINE"] = "1"


	def load_result(result_dir, query_index):
	result = {}
	matched_uid = []
	unmatched_uid = []
	for query_id in query_index:
	result_file = os.path.join(result_dir, f"{query_id}.json")
	# print(f"Loading result for {query_id} from {result_file}")
	try:
	if os.path.exists(result_file):
	result[query_id] = load_json_file(result_file)
	matched_uid.append(query_id)
	else:
	result[query_id] = {}
	unmatched_uid.append(query_id)
	except Exception:
	result[query_id] = {}
	unmatched_uid.append(query_id)
	return result, matched_uid, unmatched_uid


	def validate_json(json_data, schema):
	try:
	validate(instance=json_data, schema=schema)
	return True
	except jsonschema.exceptions.ValidationError as e:
	return False


	def evaluate_schema_constraints(data_index, plan_json_dict, schema, result):

	total_correct = 0
	result_agg = pd.DataFrame(columns=["data_id", "schema"])
	result_agg["data_id"] = data_index

	pass_id = []

	total = len(data_index)
	for ii, idx in enumerate(data_index):
	plan_json = plan_json_dict[idx]
	succ_flag = 0
	try:
	if validate_json(plan_json, schema):
	succ_flag = 1
	pass_id.append(idx)
	except Exception as e:
	pass
	result_agg.loc[ii, "schema"] = succ_flag
	total_correct += succ_flag
	yield {
	"stage": "schema",
	"progress": (ii + 1) / total * 100,
	}
	total_count = len(data_index)
	result["DR"] = total_correct / total_count * 100
	result["S_pass_id"] = pass_id


	"""
	Constraints:
	Available
	1. Intercity transport information exsits and is objective: ID, time, startpos and endpos need to be correct.
	2. Attractions
	3. Hotels
	4. Restaurants
	5. transportation
	6. Times
	7. space
	"""


	def evaluate_commonsense_constraints(
	data_index, symbolic_input_dict, plan_json_dict, result
	):
	func_list = [
	Is_intercity_transport_correct,
	Is_attractions_correct,
	Is_hotels_correct,
	Is_restaurants_correct,
	Is_transport_correct,
	Is_time_correct,
	Is_space_correct,
	]
	result_agg = pd.DataFrame(columns=["data_id"])
	result_agg["data_id"] = data_index
	individual_succ = 0
	pass_id = []
	total = len(data_index)
	for ii, idx in enumerate(data_index):
	symbolic_input, plan_json = symbolic_input_dict[idx], plan_json_dict[idx]
	try:
	for func in func_list:
	table_res, _ = func(symbolic_input, plan_json, verbose=False)
	for colum_i in table_res.columns:
	if colum_i not in result_agg.columns:
	result_agg[colum_i] = 0
	result_agg.loc[ii, colum_i] = table_res[colum_i].loc[0]
	if result_agg.loc[ii][1:].sum() == 0:
	individual_succ += 1
	pass_id.append(idx)
	except Exception as message:
	pass
	yield {
	"stage": "commonsense",
	"progress": (ii + 1) / total * 100,
	}
	total_count = len(data_index)
	micro_accuracy = 1.0 - result_agg.drop("data_id", axis=1).sum().sum() / (
	total_count * (result_agg.shape[1] - 1)
	)
	macro_accuracy = individual_succ / total_count
	result["EPR_micro"] = micro_accuracy * 100
	result["EPR_macro"] = macro_accuracy * 100
	result["E_pass_id"] = pass_id


	def evaluate_hard_constraints_v2(
	data_index, symbolic_input_dict, plan_json_dict, env_pass_id, result: dict
	):
	max_logic_num = 0
	for idx in data_index:
	max_logic_num = max(
	max_logic_num, len(symbolic_input_dict[idx]["hard_logic_py"])
	)
	columns = ["data_id"]
	for i in range(max_logic_num):
	columns.append(f"logic_py_{i}")
	result_agg = pd.DataFrame(columns=columns)
	for col_i in result_agg.columns[1:]:
	result_agg[col_i] = 0
	macro_count, macro_succ_count = 0, 0
	micro_count, micro_succ_count = 0, 0
	conditional_micro_succ_count, conditional_macro_succ_count = 0, 0
	results = []
	passed_id = []
	total = len(data_index)
	for ii, idx in enumerate(data_index):
	symbolic_input, plan_json = symbolic_input_dict[idx], plan_json_dict[idx]
	result_ii = evaluate_constraints_py(
	symbolic_input["hard_logic_py"], plan_json, verbose=False
	)
	results.append(result_ii)
	dict_ii = {}
	succ_c_sum = 0
	for logic_i in range(len(symbolic_input["hard_logic_py"])):
	dict_ii[f"logic_py_{logic_i}"] = int(result_ii[logic_i])
	succ_c_sum += int(result_ii[logic_i])
	macro_count += 1
	macro_succ_count += succ_c_sum == len(dict_ii)
	micro_count += len(dict_ii)
	micro_succ_count += succ_c_sum
	if idx in env_pass_id:
	conditional_micro_succ_count += succ_c_sum
	conditional_macro_succ_count += succ_c_sum == len(dict_ii)
	if succ_c_sum == len(dict_ii):
	passed_id.append(idx)
	dict_ii["data_id"] = idx
	result_agg.loc[ii] = pd.Series(dict_ii)
	yield {
	"stage": "logic",
	"progress": (ii + 1) / total * 100,
	}
	macro = macro_succ_count / macro_count
	micro = micro_succ_count / micro_count
	c_marco = conditional_macro_succ_count / macro_count
	c_micro = conditional_micro_succ_count / micro_count
	result["LPR_micro"] = micro * 100
	result["LPR_macro"] = macro * 100
	result["C-LPR"] = c_micro * 100
	result["L_pass_id"] = passed_id


	def evaluate(args, result):
	eval_result = {}

	query_index, query_data = load_query(args)
	result_data, matched_uid, unmatched_uid = load_result(
	args.result_dir, query_index=query_index
	)
	eval_result["matched_uid"] = matched_uid
	eval_result["unmatched_uid"] = unmatched_uid

	schema_file_path = "chinatravel/evaluation/output_schema.json"
	schema = load_json_file(schema_file_path)
	# schema pass rate
	yield from evaluate_schema_constraints(
	query_index, result_data, schema=schema, result=eval_result
	)

	# commonsense pass rate
	yield from evaluate_commonsense_constraints(
	query_index, query_data, result_data, result=eval_result
	)

	# hard logic pass rate
	yield from evaluate_hard_constraints_v2(
	query_index,
	query_data,
	result_data,
	env_pass_id=eval_result.get("E_pass_id", []),
	result=eval_result,
	)

	# all pass rate
	# all_pass_id = list(
	# set(schema_pass_id) & set(commonsense_pass_id) & set(logi_pass_id)
	# )
	all_pass_id = set(query_index) # Initialize with all query IDs
	for key in eval_result:
	if "pass_id" in key:
	all_pass_id.intersection_update(set(eval_result[key]))
	eval_result["FPR"] = len(all_pass_id) / len(query_index) * 100
	# del pass_id
	del_keys = [key for key in eval_result if "pass_id" in key]
	for key in del_keys:
	del eval_result[key]
	result = eval_result
	yield {
	"stage": "final",
	"progress": 100,
	"result": result,
	}