به گزارش وفاق ملی، این اطلاعات بخشی از آگهیهایی را در بر میگیرد که در میانه سال ۱۴۰۳ فعال بوده و از میان شهرها و محلههای مختلف، بهصورت تصادفی انتخاب شدهاند. دیوار در توضیح این اقدام خود میگوید: «این دیتاست نخستین مجموعه ساختارمند در حوزه املاک به زبان فارسی محسوب میشود و از نظر حجم، کیفیت و تمیز بودن دادهها، ابعاد قابل توجهی دارد.»
دیوار تأکید میکند که «برای حفظ حریم خصوصی کاربرانش، تمامی اطلاعات شخصی که ممکن بود به شناسایی افراد منجر شود، از این دیتاست حذف شده و صرفاً دادههایی که خود کاربر اجازه انتشار آنها را داده بود، منتشر شده است.»
این دادهها میتواند پایهای برای تیمهای پژوهشی، محققان دانشگاهی و استارتاپهای فعال در حوزه پراپتک (Property Tech) ایران باشد که در زمینه توسعه و ساخت مدلهای هوشمند تخمین قیمت، طراحی سیستمهای توصیهگر ملک، تحلیل متن و استخراج کلیدواژهها و پژوهشهای مرتبط با اقتصاد مسکن فعالیت میکنند. این حجم داده برای تقویت مدل زبانی فارسی نیز کاربرد دارد و میتواند در توسعه ابزارهای هوش مصنوعیِ فارسی مؤثر باشد.
برای استفاده از این مجموعه داده میتوانید به وبسایت Hugging Face مراجعه کنید.